Definição automática de classificadores fuzzy probabilísticos

Texto

(1)UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E INFORMÁTICA INDUSTRIAL. LUIZ LEDO MOTA MELO JUNIOR. DEFINIÇÃO AUTOMÁTICA DE CLASSIFICADORES FUZZY PROBABILÍSTICOS. TESE DE DOUTORADO. CURITIBA 2017.

(2) LUIZ LEDO MOTA MELO JUNIOR. DEFINIÇÃO AUTOMÁTICA DE CLASSIFICADORES FUZZY PROBABILÍSTICOS. Tese de Doutorado apresentada ao Programa de Pósgraduação em Engenharia Elétrica e Informática Industrial da Universidade Tecnológica Federal do Paraná como requisito parcial para obtenção do grau de “Doutor em Ciências” – Área de Concentração: Engenharia de Computação. Orientadora:. MYRIAM REGATTIERI DE B. DA SILVA DELGADO,. Co-orientador: JOSÉ VALENTE DE OLIVEIRA. CURITIBA 2017.

(3) 'DGRV,QWHUQDFLRQDLVGH&DWDORJDomRQD3XEOLFDomR 0HOR-XQLRU/XL]/HGR0RWD 0G'HILQLomRDXWRPiWLFDGHFODVVLILFDGRUHVIX]]\SUREDELOtVWLFRV /XL]/HGR0RWD0HOR-XQLRU SLOFP 7H[WRHPSRUWXJXrVFRPUHVXPRHPLQJOrV 'LVSRQtYHOWDPEpPYLD:RUOG:LGH:HE 7HVH 'RXWRUDGR

(4) ±8QLYHUVLGDGH7HFQROyJLFD)HGHUDOGR3D UDQi3URJUDPDGH3yVJUDGXDomRHP(QJHQKDULD(OpWULFDH,Q IRUPiWLFD,QGXVWULDO&XULWLED %LEOLRJUDILDI /yJLFDGLIXVD$OJRULWPRVGLIXVRV7HRULDED\HVLDQDGH GHFLVmRHVWDWtVWLFD&RUUHODomR (VWDWtVWLFD

(5) 7HRULDGDFR PXQLFDomRHVWDWtVWLFD(QJHQKDULDHOpWULFD±7HVHV,'HOJDGR 0\ULDP5HJDWWLHUL'H%LDVHGD6LOYD,,2OLYHLUD-RVp9DOHQWHGH ,,,8QLYHUVLGDGH7HFQROyJLFD)HGHUDOGR3DUDQi3URJUDPDGH 3yV*UDGXDomRHP(QJHQKDULD(OpWULFDH,QIRUPiWLFD,QGXVWULDO ,97tWXOR &''(G± %LEOLRWHFD&HQWUDOGD87)35&kPSXV&XULWLED.

(6) . 0LQLVWpULRGD(GXFDomR 8QLYHUVLGDGH7HFQROyJLFD)HGHUDOGR3DUDQi 'LUHWRULDGH3HVTXLVDH3yV*UDGXDomR . . 7(502'($3529$d2'(7(6(1. $ 7HVH GH 'RXWRUDGR LQWLWXODGD ³'HILQLomR $XWRPiWLFD 'H &ODVVLILFDGRUHV )X]]\ 3UREDELOtVWLFRV´GHIHQGLGDHPVHVVmRS~EOLFDSHOR D

(7) FDQGLGDWR D

(8) /XL] /HGR 0RWD 0HOR -XQLRU QRGLDGHVHWHPEURGHIRLMXOJDGDSDUDDREWHQomRGRWtWXORGH'RXWRUHP&LrQFLDViUHDGH FRQFHQWUDomR (QJHQKDULD GH &RPSXWDomR H DSURYDGD HP VXD IRUPD ILQDO SHOR 3URJUDPD GH 3yV *UDGXDomRHP(QJHQKDULD(OpWULFDH,QIRUPiWLFD,QGXVWULDO %$1&$(;$0,1$'25$ 3URI D

(9) 'U D

(10) 0\ULDP5HJDWWLHUL'H%LDVHGD6LOYD'HOJDGR3UHVLGHQWH± 87)35

(11) 3URI D

(12) 'U D

(13) 5LFDUGR6DQGHV(KOHUV± 863,&0&6&

(14) 3URI D

(15) 'U D

(16) $OFHXGH6RX]D%ULWWR-XQLRU± 38&35

(17) 3URI D

(18) 'U D

(19) 9ROPLU(XJrQLR:LKHOP± 8)35

(20) 3URI D

(21) 'U D

(22) -RmR$OEHUWR)DEUR 87)35

(23) 3URI D

(24) 'U D

(25) /XtV$OEHUWR/XFDV 87)35

(26) $ YLD RULJLQDO GHVWH GRFXPHQWR HQFRQWUDVH DUTXLYDGD QD 6HFUHWDULD GR 3URJUDPD FRQWHQGR D DVVLQDWXUDGD&RRUGHQDomRDSyVDHQWUHJDGDYHUVmRFRUULJLGDGRWUDEDOKR &XULWLEDGHVHWHPEURGH . .

(27) Aos meus grandes amores, avó Alcídia e esposa Rosana.

(28) AGRADECIMENTOS. Inicialmente gostaria de agradecer as duas pessoas mais relevantes na minha vida, minha avó Alcídia e esposa Rosana. Minha avó por ter sido meu grande suporte me apoiando nos momentos mais difíceis e sempre transmitindo a confiança necessária para superar os desafios da vida, infelizmente ela faleceu no ano que comecei o Doutorado. Porém o universo me recompensou esta perda, com minha esposa que me apoiou incondicionalmente em toda esta batalha no Doutorado, nunca deixando me abalar em momentos cruciais da vida. Gostaria de agradecer minha mãe Elisabete e minha Tia Renata no apoio inicial da carreira. Agradeço minha prima Juliana por ter partilhado momentos especiais no meu Doutorado Sanduíche. Agradeço neste período minha cunhada Rosângela, que deu um suporte familiar enquanto minha esposa estava comigo em Portugal. Agradeço aos meus tios Flávio e Wilson, e amigos Márcia e Antonino pelos momentos de descontração. Agradeço meus sogros Odir e Salete por serem um exemplo de resignação e confiança na vida. Agradeço minha Orientadora de Doutorado Myriam Delgado, que na minha opinião foi o maior exemplo de docente que já conheci, intitulo ela como o Chico Xavier da educação, trabalha 24 horas em prol dos seus orientados. Também tenho que destacar o papel do meu outro orientador José Valente, um ser humano maravilhoso que me incentivou ao máximo na construção deste trabalho. Agradeço meus professores de graduação em Estatística da UFPR, principalmente o professor Ricardo Ehlers que sempre me incentivou em buscar conhecimento, também não posso esquecer dos professores Jomar Camarinha e Anselmo Chaves. Ao longo da graduação destaco meu grande amigo Silvio, agradeço pela sua enorme parceria. Agradeço aos amigos da pós-graduação na UFRJ, principalmente meu amigo Fernando que me ajudou em todos os sentidos e sua esposa Valmária, que me deu o privilégio de conhecer sua fantástica família. Também não posso esquecer do meu amigo Vinícius que sempre passou conhecimentos valiosos..

(29) Agradeço aos colegas do Damat, principalmente a professora Silvana Heidemann pelo grande apoio para realização do Doutorado Sanduíche, ao meu grande amigo José Carlos Conick e ao professor Carlos Magno pelo grande apoio. Agradeço à banca de avaliação pelas valiosas sugestões e correções. Agradeço também ao professor Alceu pela contribuição em sugestões no meu Doutorado, e também ao professor Luis Alberto Lucas pelo apoio no início da minha tese e valorosas contribuições para este trabalho. E por fim agradeço a uma consciência superior, que me permitiu ter encontrado e partilhado momentos maravilhosos com tantas pessoas. Agradeço ao CNPq pela bolsa para realização de Doutorado Sanduíche na Universidade do Algarve, sob a orientação do professor José Valente de Oliveira. Agradeço à UTFPR pela liberação para realizar o Doutorado Sanduíche. Agradeço ao CPGEI pelo apoio financeiro para participação em congresso. Agradeço ao projeto Prometeo, financiado pelo SENESCYT da República do Ecuador e o National Research Base of Intelligent Manufacturing Service, Chongqing Technology and Business University, China, pela disponibilização de dados para este trabalho..

(30) RESUMO. Junior, Luiz Ledo Mota Melo. DEFINIÇÃO AUTOMÁTICA DE CLASSIFICADORES FUZZY PROBABILÍSTICOS. 2017. 154 f. Tese de Doutorado – Programa de Pós-graduação em Engenharia Elétrica e Informática Industrial, Universidade Tecnológica Federal do Paraná. Curitiba, 2017. Este trabalho apresenta uma abordagem para a definição automática de bases de regras em Classificadores Fuzzy Probabilísticos (CFPs), um caso particular dos Sistemas Fuzzy Probabilísticos. Como parte integrante deste processo, são utilizados os seguintes métodos de redução de dimensionalidade: análise de componentes principais e discriminante de Fisher. Os algoritmos de agrupamento testados para particionar o universo das variáveis de entrada do sistema são Gustafson-Kessel e Supervised Fuzzy Clustering ambos já consolidados na literatura. Adicionalmente, propõe-se um novo algoritmo de agrupamento denominado Gustafson-Kessel com Ponto Focal como parte integrante do projeto automático de CFPs. A capacidade deste novo algoritmo em identificar clusters elipsoidais e não elipsoidais também é avaliada neste trabalho. Em dados altamente correlacionados ou totalmente correlacionados ocorrem problemas na inversão da matriz de covariância fuzzy. Desta forma um novo método de regularização para esta matriz está sendo proposto neste trabalho. Nos CFPs considerados, a combinação de antecedentes e consequentes fornece uma base de regras na qual todos os consequentes são possíveis em uma regra, cada um associado a uma medida de probabilidade. Neste trabalho, esta medida de probabilidade é calculada com base no Teorema de Bayes que, a partir de uma função de verossimilhança, atualiza a informação a priori de cada consequente em cada regra. A principal inovação é o cálculo da função de verossimilhança que se baseia no conceito de região Ideal de forma a melhor identificar as probabilidades associadas aos consequentes da regra. Os CFPs propostos são comparados com classificadores fuzzy-Bayesianos e outros tradicionais na área de aprendizado de máquina considerando conjuntos de dados gerados artificialmente, 30 benchmarks e também dados extraídos diretamente de problemas reais como a detecção de falhas em rolamentos de máquinas industriais. Os resultados dos experimentos mostram que os classificadores fuzzy propostos superam, em termos de acurácia, os classificadores fuzzy-Bayesianos considerados e alcançam resultados competitivos com classificadores não-fuzzy tradicionais usados na comparação. Os resultados também mostram que o método de regularização proposto é uma alternativa para a técnica de agrupamento Gustafson-Kessel (com ou sem ponto focal) quando se consideram dados lineares altamente correlacionados. Palavras-chave: Sistemas Fuzzy Probabilístico, Agrupamento Fuzzy, Teorema de Bayes, Inferência Bayesiana, Classificação.

(31) ABSTRACT. Junior, Luiz Ledo Mota Melo. AUTOMATIC DESIGN OF PROBABILISTIC FUZZY CLASSIFIERS . 2017. 154 f. Tese de Doutorado – Programa de Pós-graduação em Engenharia Elétrica e Informática Industrial, Universidade Tecnológica Federal do Paraná. Curitiba, 2017. This work presents a new approach for the automatic design of Probabilistic Fuzzy Classifiers (PFCs), which are a special case of Probabilistic Fuzzy Systems. As part of the design process we consider methods for reducing the dimensionality like the principal component analysis and the Fisher discriminant. The clustering methods tested for partitioning the universe of input variables are Gustafson-Kessel and Supervised Fuzzy Clustering, both consolidated in the literature. In addition, we propose a new clustering method called Gustafson-Kessel with Focal Point as part of the automatic design of PFCs. We also tested the capacity of this method to deal with ellipsoidal and non-ellipsoidal clusters. Highly correlated data represent a challenge to fuzzy clustering due to the inversion of the fuzzy covariance matrix. Therefore, a regularization method is necessary for this matrix and a new one is proposed in this work. In the proposed PFCs, the combination of antecedents and consequents provides a rule base in which all consequents are possible, each one associated with a probability measure. In this work, the probability is calculated based on the Bayes Theorem by updating, through the likelihood function, a priori information concerning every consequent in each rule. The main innovation is the calculus of the likelihood functions which is based on the Ideal region concept, aiming to improve the estimation of the probabilities associated with rules consequents. The proposed PFCs are compared with fuzzy-bayesian classifiers and other ones traditional in machine learning over artificial generated data, 30 different benchmarks and also on data directly extracted from real world like the problem of detecting bearings fault in industrial machines. Experiments results show that the proposed PFCs outperform, in terms of accuracy, the fuzzy-bayesian approaches and are competitive with the traditional non-fuzzy classifiers used in the comparison. The results also show that the proposed regularization method is an alternative to the Gustafson-Kessel clustering technique (with or without focal point) when using linearly correlated data. Keywords: Probabilistic Fuzzy Systems, Fuzzy Clustering, Bayes Theorem, Bayesian Inference, Classification.

(32) LISTA DE FIGURAS. FIGURA 1 FIGURA 2 FIGURA 3 FIGURA 4 FIGURA 5 FIGURA 6 FIGURA 7 FIGURA 8 FIGURA 9 FIGURA 10 FIGURA 11 FIGURA 12 FIGURA 13 FIGURA 14 FIGURA 15 FIGURA 16 FIGURA 17 FIGURA 18 FIGURA 19 FIGURA 20 FIGURA 21 FIGURA 22 FIGURA 23 FIGURA 24 FIGURA 25 FIGURA 26 FIGURA 27 FIGURA 28 FIGURA 29 FIGURA 30 FIGURA 31 FIGURA 32 FIGURA 33 FIGURA 34 FIGURA 35 FIGURA 36. – Funções de Pertinência da Variável Temperatura . . . . . . . . . . . . . . . . . . . . . 21 – Agrupamento Morfológico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 – Exemplo de matriz de pertinência produzida por um agrupamento Crisp 23 – Exemplo de matriz de pertinência produzida por um Agrupamento fuzzy 23 – Etapas da Inferência em Sistema fuzzy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 – Métodos de defuzzificação Mom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 – Métodos de defuzzificação CoG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 – Agrupamento KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 – Arquitetura PNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 – Hiperplano SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 – SVM não Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 – Funções de Pertinência Dados Normais Bivariados Simulados . . . . . . . . 72 – Regras com suas respectivas funções de pertinência . . . . . . . . . . . . . . . . . . 73 – Regiões Ideais definidas por α-corte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 – Ponto Focal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 – Dados gerados da distribuição Normal com Média 0 e 1 e σ = 0.3 com Região Ideal Definida com α-corte 0.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 – Box-Plot com Acurácia dos Modelos para Identificação de Dados Gerados da Distribuição Normal com Média 0 e 1 e σ = 0.3 . . . . . . . . . . . . . . . . . 102 – Dados Gerados da Distribuição Normal com Média 0 e 1 e σ = 0.5 com Região Ideal Definida com α-corte 0.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 – Box-Plot com Acurácia dos Modelos para Identificação de Dados Gerados da Distribuição Normal com Média 0 e 1 e σ = 0.5 . . . . . . . . . . . . . . . . . 103 – Escala de Likert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 – Box-Plot Acurácia da Base de Dados Bearing1 com Modelo Híbrido . . 113 – Box-Plot Acurácia da Base de Dados Bearing 2 com Modelo Híbrido . . 113 – Experimentos Simulados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 – Resultados Experimento B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 – Formas de Clusterização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 – Avaliação Experimento B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 – Evolução clusters Experimento A com GKFP . . . . . . . . . . . . . . . . . . . . . . . . 121 – Possibilidades de Agrupamento do GKFP no Experimento A . . . . . . . . . . 122 – Agrupamento com Projeção com Priori 0.5I . . . . . . . . . . . . . . . . . . . . . . . . . 123 – Agrupamento com Projeção com Priori 0.1I . . . . . . . . . . . . . . . . . . . . . . . . . 124 – Agrupamento com Projeção com Priori 0.05I . . . . . . . . . . . . . . . . . . . . . . . . 125 – Box-Plot com Acurácia dos Modelos para Identificação de Dados Gerados da Distribuição Normal com Média 0 e 1 e σ = 0.5 utilizando 10-fold 131 – Box-Plot com Acurácia dos Modelos para Identificação de Dados Gerados da Distribuição Normal com Média 0 e 1 e σ = 0.3 utilizando 10-fold 132 – Box-Plot Acurácia da Base de Dados Bearing 1 . . . . . . . . . . . . . . . . . . . . . 134 – Box-Plot Acurácia da Base de Dados Bearing 2 . . . . . . . . . . . . . . . . . . . . . 135 – Funções de Pertinência das Variáveis Tempo-Domínio Rms e Amplitude.

(33) FIGURA 37 FIGURA 38 FIGURA 39 FIGURA 40 FIGURA 41. Linear Rms do FFT Banda 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 – Funções de Pertinência Tempo Rms para 2, 3 e 5 clusters . . . . . . . . . . . . . 140 – Funções de Pertinência Tempo Kda para 2, 3 e 5 clusters . . . . . . . . . . . . . . 141 – Funções de Pertinência Tempo Frequência WPT (coif4)15 para 2, 3 e 5 clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 – Distribuição Normal Bivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 – Construção da elipse em função dos autovalores e autovetores . . . . . . . . . 154.

(34) LISTA DE TABELAS. TABELA 1 TABELA 2 TABELA 3 TABELA 4 TABELA 5 TABELA 6 TABELA 7 TABELA 8 TABELA 9 TABELA 10 TABELA 11 TABELA 12 TABELA 13 TABELA 14 TABELA 15 TABELA 16. – Características dos Dados de Benchmark . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 – Características das Abordagens Propostas e de Comparação . . . . . . . . . . . 99 – Número Médio (sobre as 20 rodadas) de Variáveis Utilizadas pelos CFPs 105 – Número Médio de Regras (sobre as 20 rodadas) utilizadas por CFP . . . . 105 – Resultados Acurácia Média dos Benchmarks . . . . . . . . . . . . . . . . . . . . . . . . 106 – Comparando 12 variantes do PFCid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 ∗ Comparado com Algoritmos Não Fuzzy . . . . . . . . . . . . . . 111 – Modelo PFCid – Resultados Acurácia Média da Base de Dados Bearing1 com Modelo Híbrido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 – Resultados Acurácia Média da Base de Dados Bearing 2 com Modelo Híbrido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 – Resultados Ari Médio GKregB com 7 prioris . . . . . . . . . . . . . . . . . . . . . . . . 115 – Resultados Ari Médio GKFP com 7 prioris . . . . . . . . . . . . . . . . . . . . . . . . . 115 – Valores ζ em função das prioris para diferentes número de clusters . . . . 117 – Número Médio (sobre as 30 rodadas) de Variáveis Utilizadas pelos CFPs 132 – Resultados Acurácia Média dos Benchmarks . . . . . . . . . . . . . . . . . . . . . . . . 133 – Resultados Acurácia Média da Base de Dados Bearing1 (10-fold) . . . . . 133 – Resultados Acurácia Média da Base de Dados Bearing2 (10-fold) . . . . . 133.

(35) LISTA DE SIGLAS. CFPs SFP GK GKFP FCM SIF FCMFP PFC1 PFC2 PFCid KNN PNN SVM ACP ARI. Classificadores Fuzzy Probabilístico Sistema Fuzzy Probabilístico Gustafson-Kessel Gustafson-Kessel com Ponto Focal Fuzzy c-means Sistema de Inferência Fuzzy Fuzzy-c means com Ponto Focal Probabilistic Fuzzy Classifier 1 Probabilistic Fuzzy Classifier 2 Probabilistic Fuzzy Classifier híbrido baseado em região Ideal K-nearest neighbors Probabilistic neural network Support vector machine Análise de Componentes Principais Adjusted Rand Index.

(36) SUMÁRIO. 1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 CONTRIBUIÇÕES DA PROPOSTA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 ORGANIZAÇÃO DO TEXTO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 SISTEMAS FUZZY . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 Conjuntos Fuzzy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2 Métodos de Partição do Universo por Agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2.1 Gustafson-Kessel(GK) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2.2 Supervised Fuzzy Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.3 Regras Fuzzy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.4 Sistemas de Inferência Fuzzy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.4.1 Inferência Escalonada no Modelo Mamdani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.4.2 Inferência Escalonada no Modelo Takagi-Sugeno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.5 Métodos de Defuzzificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.6 Sistema Fuzzy Probabilístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 FUNDAMENTOS INFERÊNCIA BAYESIANA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Distribuição a priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1.1 Prioris Conjugadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1.2 Prioris não Informativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1.3 Prioris Hierárquicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2.1 Estimação Pontual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2.2 Estimação por Intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.3 Estimação de Parâmetros utilizando Normal-Wishart-Invertida . . . . . . . . . . . . . . . . . . . 2.2.3.1 Função de Verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.3.2 Posteriori Conjunta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.3.3 Distribuição Marginal a Posteriori de µ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.3.4 Distribuição Marginal a Posteriori de Σ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.4 Métodos Computacionalmente Intensivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.4.1 Algoritmo Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.4.2 Metropolis-Hastings com uma variável por vez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.4.3 Amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.5 Mistura de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 CLASSIFICAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Classificadores Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1.1 Classificador de Bayes com Mistura de Distribuições . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1.2 Classificador Fuzzy Bayesiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.2 Classificadores Não Fuzzy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.2.1 Algoritmo dos k vizinhos mais próximos (KNN) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.2.2 Rede Neural Probabilística (PNN) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 15 16 17 18 19 19 19 21 24 26 28 29 30 31 32 33 36 37 37 38 39 40 40 41 43 43 44 46 47 48 49 50 50 51 55 55 56 57 58 59 60.

(37) 2.3.2.3 Máquina de vetores de suporte (SVM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3 DEFINIÇÃO AUTOMÁTICA DE CLASSIFICADORES FUZZY PROBABILÍSTICOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 PARTIÇÃO DO UNIVERSO DE ENTRADA POR AGRUPAMENTO . . . . . . . . . . . . 3.2 ESTIMAÇÃO DAS PROBABILIDADES DOS CONSEQUENTES . . . . . . . . . . . . . . . 3.3 DEFININDO A REGIÃO IDEAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 MODELAGEM E INFERÊNCIA DOS CLASSIFICADORES PROPOSTOS . . . . . . 3.4.1 Proposta 1 para o CFP: Modelagem e Inferência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.2 Proposta 2 para o CFP: Modelagem e Inferência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.3 Diferença das Propostas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 GKFP: UM NOVO MÉTODO DE AGRUPAMENTO ASSOCIADO COM REGU-. 66 67 68 70 71 72 75 78. LARIZADOR BAYESIANO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 4.1 GUSTAFSON-KESSEL COM PONTO FOCAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 4.2 REGULARIZADOR BAYESIANO PARA A MATRIZ DE COVARIÂNCIA FUZZY 85 4.3 FUNÇÃO DE VEROSSIMILHANÇA MODIFICADA EM FUNÇÃO DA MATRIZ DE COVARIÂNCIA RELACIONADA COM GRAUS DE PERTINÊNCIA . . . . . . . . 87 4.4 REGULARIZADOR BAYESIANO PARA O GK E GKFP . . . . . . . . . . . . . . . . . . . . . . . 89 4.4.1 Algoritmos de agrupamento com regularizador Bayesiano . . . . . . . . . . . . . . . . . . . . . . . 90 5 EXPERIMENTOS E RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 5.1 DESCRIÇÃO DOS DADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 5.2 DESCRIÇÃO DAS ABORDAGENS CFPS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 5.3 MODELO PFC APLICADO A DADOS COM DISTRIBUIÇÃO NORMAL . . . . . . . 100 5.4 COMPARAÇÃO ENTRE CFPS: DADOS BENCHMARK 1 . . . . . . . . . . . . . . . . . . . . . . 104 5.5 MODELO PFC HÍBRIDO APLICADO AOS DADOS BENCHMARK 2 . . . . . . . . . . 106 5.5.1 Variantes do PFCid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 5.5.2 Melhor variante Modelo Híbrido versus classificadores não fuzzy . . . . . . . . . . . . . . . . 109 5.6 COMPARAÇÃO ENTRE CLASSIFICADORES FUZZY E NÃO FUZZY: DADOS BEARING . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 5.7 EXPERIMENTOS DE AGRUPAMENTO: GK VERSUS GKFP DADOS ARTIFICIAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 5.7.1 Dificuldades do GK em dados com alta correlação linear . . . . . . . . . . . . . . . . . . . . . . . . 113 5.7.2 GKregB versus GKFP: avaliação do regularizador Bayesiano proposto . . . . . . . . . . . . . 114 5.7.2.1 Resultados Obtidos pelo GKregB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 5.7.2.2 Resultados Obtidos pelo GKFP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 5.7.2.3 GKFP iterativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 5.7.3 GKFP nos dados Bearing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 6 CONCLUSÕES E PERSPECTIVAS FUTURAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 Apêndice A -- DEMONSTRAÇÃO MATRIZ DE COVARIÂNCIA FUZZY MODIFICADA POR PONTO FOCAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 Apêndice B -- COMPARAÇÃO ENTRE MODELOS UTILIZANDO 10-FOLD PARA AVALIAÇÃO DE ACURÁCIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 B.1 DADOS COM DISTRIBUIÇÃO NORMAL: AVALIAÇÃO DE ACURÁCIA PELO PROTOCOLO 10-FOLD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 B.2 DADOS BENCHMARK 1: AVALIAÇÃO DE ACURÁCIA PELO PROTOCOLO 10FOLD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.

(38) B.3 DADOS BEARING: AVALIAÇÃO DE ACURÁCIA PELO PROTOCOLO 10-FOLD 132 Apêndice C -- BASE DE REGRAS E FUNÇÕES DE PERTINÊNCIA . . . . . . . . . . . . . . 136 Apêndice D -- CONVERGÊNCIA DO ALGORITMO GKFP . . . . . . . . . . . . . . . . . . . . . . . 143 Anexo A -- SELEÇÃO DE VARIÁVEIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 A.1 CRITÉRIO DE SEPARABILIDADE INTERCLASSES DE FISHER . . . . . . . . . . . . . . 147 A.2 ANÁLISE DE COMPONENTES PRINCIPAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 A.3 VALIDADORES DE AGRUPAMENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 Anexo B -- REGULARIZAÇÃO MATRIZ DE COVARIÂNCIA . . . . . . . . . . . . . . . . . . . . 150 B.1 EXEMPLO DE MOTIVAÇÃO PARA REGULARIZAÇÃO DE MATRIZ . . . . . . . . . . 150 B.2 REGULARIZADOR DA MATRIZ DE COVARIÂNCIA FUZZY PROPOSTO POR BABUSKA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155.

(39) 15. 1. INTRODUÇÃO. Existem vários tipos de incerteza, devido aos mais variados motivos. Dois tipos bastante presentes são: a incerteza estatística (ou por aleatoriedade) e a incerteza não-estatística (como por exemplo aquela resultante de imprecisão ou ambiguidade). Esta última considera, por exemplo, a incerteza presente em variáveis linguísticas e tal imprecisão é tratada através da Teoria dos Conjuntos Fuzzy, (ZADEH, 1965). A incerteza estatística considera a aleatoriedade que surge devido à chance de ocorrência de um evento futuro. Este tipo de incerteza é tratado por meio da Teoria das Probabilidades (JAMES, 2015). No entanto, em alguns casos, os dois tipos de incerteza estão presentes: é necessário saber a probabilidade de ocorrência de um evento, mas o próprio evento é vago ou ambíguo. Assim é preciso procurar uma forma conjunta de tratar os dois tipos de incerteza, por exemplo através de um sistema híbrido. Como exemplo prático desse uso conjunto, Royes (2003) utiliza conjuntos fuzzy com abordagens Multicritério para estabelecer índices que possibilitam analisar as chances de candidatos a uma determinada eleição. Já Cruz (2001), alia Lógica fuzzy com Análise Multivariada para predizer a saúde financeira de companhias aéreas. O sistema híbrido que serve de base para este trabalho denomina-se Sistema Fuzzy Probabilístico (SFP), e agrega Sistemas Fuzzy e Teoria das Probabilidades (LIU; LI, 2005; MEGHDADI; AKBARZADEH-T, 2001). SFPs são empregados, por exemplo, para modelar um conjunto de regras onde cada regra envolve múltiplos consequentes, com diferentes chances de ocorrência. O SFP considerado utiliza uma base de regras na qual os antecedentes são construídos a partir de técnicas de agrupamentos fuzzy e os consequentes são associados a medidas de probabilidade. Berg et al. (2002) e Melo et al. (2012) utilizam o Teorema de Bayes para definir estas probabilidades e na sequência o consequente apropriado (aquele com maior medida de probabilidade). Yan e Xiao (2012), por outro lado, aliam uma abordagem geométrica ao Teorema de Bayes. Neste trabalho, os SFPs serão explorados visando à obtenção automática de Classificadores Fuzzy Probabilísticos (CFP) que são o foco desta pesquisa..

(40) 16. Assim como Melo et al. (2012), neste trabalho é definida uma região Ideal que, associada ao Teorema de Bayes, permite solucionar o problema de múltiplos consequentes. A região Ideal proposta pode ser entendida como o resultado de uma operação realizada sobre a relação fuzzy que descreve o antecedente, buscando reduzir a região de influência deste no cálculo das probabilidades do consequente da regra. Duas formas de obtenção da região Ideal são testadas no trabalho: via α-corte e via intensificação de contraste. No caso do α-corte a região Ideal obtida é crisp. Já para a intensificação de contraste, a região Ideal obtida é fuzzy. No entanto, a geração de uma base de regras eficaz depende não só do consequente mas também de uma partição apropriada dos universos. A partição do universo de entrada resulta nos Conjuntos Fuzzy que geram os antecedentes da regra, influenciando fortemente o processo de inferência. Isto porque a compatibilidade de cada variável de entrada com o conceito linguístico presente na regra é calculada a partir de uma função de pertinência que representa o Conjunto Fuzzy associado. E estas compatibilidades definem, juntamente com o operador de agregação dos antecedentes, o grau de ativação da regra. Assim, uma boa partição é fundamental. Neste trabalho estão sendo considerados três métodos de agrupamento para realizar esta partição. Dois métodos consagrados na literatura e um novo método denominado de Gustafson-Kessel com Ponto Focal (GKFP). Para casos especiais de dados com forte correlação e uso de agrupamento baseado no métodos Gustafson-Kessel (GK) ou GKFP, existe a necessidade de um processo de regularização da matriz de covariância, o qual também será proposto e analisado neste trabalho. 1.1. OBJETIVOS O objetivo geral deste trabalho é propor e testar um método para a criação automática. de Classificadores Fuzzy Probabilísticos (CFPs) envolvendo desde a definição da partição dos universos até a base de regras com antecedentes formados por Conjuntos Fuzzy e consequentes dados por rótulos associados a medidas de probabilidade. Os principais objetivos específicos do trabalho são: 1. Estabelecer novos CFPs, com probabilidade dos consequentes calculada através da Inferência Bayesiana via região Ideal. 2. Testar métodos de agrupamento já consolidados para a obtenção automática dos antecedentes..

(41) 17. 3. Propor e analisar um novo método de agrupamento fuzzy denominado Gustafson-Kessel com ponto focal (GKFP). 4. Propor e testar um regularizador para a matriz de covariância fuzzy para os métodos GK e GKFP. 5. Avaliar a capacidade do GKFP como método de partição do universo de entrada do CFP sendo proposto. 6. Avaliar a capacidade do GKFP juntamente com o processo de regularização da matriz de covariância fuzzy para identificação de agrupamentos lineares. 1.2. CONTRIBUIÇÕES DA PROPOSTA Considerando-se os objetivos descritos anteriormente pretende-se contribuir com o es-. tado da arte em Sistemas Fuzzy Probabilísticos através de: 1. Um novo método de classificação fuzzy probabilística baseada em região Ideal e Teorema de Bayes. Isso porque o uso de todos os dados disponíveis para a obtenção das probabilidades dos consequentes pode gerar pouca separação entre as classes, fato este pouco explorado na literatura. 2. Um algoritmo fuzzy de agrupamento, GKFP, que detecta agrupamentos lineares e não elipsoidais e apresenta diferentes possibilidades de agrupamento dependendo da perspectiva do observador. O algoritmo GK pode ser considerado um caso particular do GKFP. 3. Um novo regularizador para a matriz de covariância fuzzy que pode ser aplicado tanto no algoritmo GK quanto no GKFP. O regularizador proposto na literatura para o GK pode ser considerado um caso particular deste. Parte dos resultados apresentados neste trabalho foi publicada na forma de três artigos científicos. LEDO, L. ; DELGADO, M. R. OLIVEIRA, J. V. Synthesis of probabilistic fuzzy classifiers using GK clustering and Bayesian estimation. Revista IEEE América Latina, v. 15, p. 550-556, 2017. LI, CHUAN ; LEDO, LUIZ ; DELGADO, MYRIAM ; CERRADA, MARIELA ; PACHECO, FANNIA ; CABRERA, DIEGO ; SÁNCHEZ, RENÉ-VINICIO ; VALENTE DE OLIVEIRA, JOSÉ . A Bayesian approach to consequent parameter estimation in probabilistic fuzzy.

(42) 18. systems and its application to bearing fault classification. KNOWLEDGE-BASED SYSTEMS, v. 129, p. 39-60, 2017 LEDO, L. ; LUCAS, L. A. ; DELGADO, M. R., . Toward Automatic Rule-base Design in Probabilistic Fuzzy Classifiers. In: Congresso Brasileiro de Sistemas Fuzzy, 2014, João Pessoa. Anais do III Congresso Brasileiro de Sistemas Fuzzy, 2014. p. 69-78. 1.3. ORGANIZAÇÃO DO TEXTO Após este capítulo inicial, o capítulo 2 apresenta a fundamentação teórica que traz uma. introdução aos Sistemas Fuzzy com ênfase nos Sistemas Fuzzy Probabilísticos. Ainda no capítulo 2 são discutidos dois métodos de agrupamentos fuzzy: GK e Supervised fuzzy Clustering, amplamente utilizados na literatura. Na sequência é apresentada uma introdução sobre a Teoria Bayesiana que serve de base para a construção dos classificadores Bayesianos, assim como para os CFPs e o regularizador da matriz de covariância fuzzy proposto no trabalho. Também no capítulo de fundamentação teórica são abordados os classificadores fuzzy-Bayesianos e não fuzzy. O capítulo 3 apresenta a proposta principal desta tese envolvendo uma nova forma de definir automaticamente um CFP, desde a estimação dos parâmetros das funções de pertinência via agrupamento fuzzy até o processo final de classificação com uma abordagem Bayesiana. Um algoritmo de agrupamento fuzzy, GKFP é detalhado no capítulo 4 assim como o regularizador Bayesiano proposto para solucionar problemas na matriz de covariância fuzzy. Os experimentos e resultados são apresentados no capítulo 5. As conclusões e perspectivas futuras são discutidas no capítulo 6..

(43) 19. 2. 2.1. FUNDAMENTAÇÃO TEÓRICA. SISTEMAS FUZZY A lógica Booleana se baseia na abordagem dicotômica, que, de acordo com o con-. texto, gera conclusões do tipo certo/errado, verdadeiro/falso, 0/1 (relação binária) dando uma interpretação drástica às afirmações. Nas rotinas computacionais que trabalham com armazenamento de informações, a lógica Booleana é utilizada. No entanto, em 1965, Zadeh propôs uma extensão da lógica Booleana baseada nos Conjuntos Fuzzy (ZADEH, 1965). Para Zadeh, através de funções de pertinência apropriadas, é possível obter o grau de pertinência de valores do universo a cada conjunto específico, grau este que varia entre 0 e 1, sendo 0 totalmente não pertencente e 1 totalmente pertencente. Uma série de aplicações práticas abordam situações que sugerem a utilização dos Conjuntos Fuzzy: "Hora de Pico, aumente a frequência dos trens", "se a roda deslizar, solte o freio um pouco"(CRUZ, 2001). Para a construção destas regras é necessária a definição de Conjuntos Fuzzy para os antecedentes e consequentes da regra que dependem de funções de pertinência apropriadas. Este trabalho pretende contribuir nesta direção, assim como expandir o escopo para sistemas híbridos para tratamento de incerteza, mas dentro de um contexto de classificação propondo e testando técnicas de obtenção automática de antecedentes e consequentes em Classificadores Fuzzy Probabilísticos. Esta seção irá abordar noções básicas de Sistemas Fuzzy e SFP. 2.1.1 CONJUNTOS FUZZY Os Conjuntos Fuzzy formam a base dos Sistemas Fuzzy (PEDRYCZ; GOMIDE, 1998; ZADEH, 1965). Um conceito de fundamental importância para o uso de sistemas baseados em Conjuntos Fuzzy é a função de pertinência que avalia a compatibilidade de cada valor de x ∈ X, com o Conjunto Fuzzy que esta função representa. Seja um Conjunto Fuzzy A, então tem-se: µA : X −→ [0, 1].

(44) 20. sendo µA , a função de pertinência que mapeia os elementos do universo X no intervalo contínuo entre 0 e 1. Para cada valor de X, a pertinência do elemento x ao conjunto A é dada por:. A = {(x, µA (x))|x ∈ X} onde, µA (x), representa o grau de pertinência do elemento x ao conjunto A 1 . Os formatos mais comuns de função de pertinência são: triangular, trapezoidal e Gaussiana. Além dos formatos tradicionais existe uma forma bastante utilizada em aplicações práticas: o conjunto unitário (singleton). • Função Triangular: parâmetros (a, m, b), com a ≤ m ≤ b    0 se x ≤ a       x−a se a < x ≤ m m−a µA (x) =  b−x   b−m se m < x ≤ b      0 se x > b .. • Função Trapezoidal: parâmetros (a, m, n, b), com a ≤ m, n ≤ b e m < n    0 se x ≤ a      x−a  se a < x ≤ m    m−a µA (x) = 1 se m < x ≤ n     b−x   b−n se n < x ≤ b      0 se x > b . • Função Gaussiana: parâmetros (m, σk ), com σk > 0 1 2 µA (x) = exp − 2 (x − m) . σk • Conjunto Unitário (singleton): parâmetros (m, h)   h se x = m µA (x) =  0 caso contrário .. 1 Desde a década de 1990, muitos pesquisadores entendem que conjuntos fuzzy e funções de pertinência representam o mesmo conceito. Então, uma definição alternativa para conjunto fuzzy seria: A = {(x, A(x)), x ∈ X}. Neste trabalho optou-se por manter as diferentes notações..

(45) 21. A seguir será apresentado um exemplo ilustrativo de conjuntos fuzzy representando a sensação de conforto em relação à temperatura ambiente. Para exemplificar as funções de pertinência, considere a Figura 1, onde são representados cinco termos linguísticos associados à temperatura: Muito Baixa (MB), Baixa (B), Média (M), Alta (A) e Muito Alta (MA). Estes termos são definidos considerando a relação temperatura e conforto. Uma temperatura de 30◦ C. Figura 1: Funções de Pertinência da Variável Temperatura tem compatibilidade máxima com o conjunto temperatura Alta, porém não tem compatibilidade nenhuma com o conjunto temperatura Baixa. Observa-se que a criação de conjuntos fuzzy pode gerar algumas questões. 1. Quantos termos linguísticos devem ser criados para cada variável? 2. Quais funções de pertinência utilizar? 3. Como adequar a opinião de especialistas ou as informações coletadas de dados de treinamento para escolha de parâmetros da função de pertinência? A seguir serão abordados aspectos relativos à partição do universo das variáveis que podem auxiliar na obtenção das respostas às perguntas anteriores. 2.1.2 MÉTODOS DE PARTIÇÃO DO UNIVERSO POR AGRUPAMENTO Uma das formas mais tradicionais de partição do universo é a partição por grid, onde o especialista define o número, formato e localização dos conjuntos no universo. Mas um método que também tem grande aplicação é o uso de agrupamento fuzzy seguido por projeção para a geração dos antecedentes das regras. Métodos de agrupamento fuzzy (OLIVEIRA; PEDRYCZ, 2007), muito utilizados são: Gustafson-Kessel (GUSTAFSON; KESSEL, 1979), fuzzy.

(46) 22. c-means (BEZDEK, 1981b; DUNN, 1973), e Supervised Fuzzy Clustering (ABONYI; SZEIFERT, 2003). Seja um vetor de n variáveis de entrada x j = (x j1 , x j2 , .., x jn ), associado a G grupos fuzzy. Em geral o número de clusters G é um parêmetro definido pelo usuário. A pertinência ui j relaciona o vetor x j ao grupo i, onde as seguintes restrições devem ser observadas para um total N de vetores de entrada: 0 ≤ ui j ≤ 1, ∀i, j ∑G i=1 ui j = 1 0 < ∑Nj=1 ui j < N, ∀i A primeira restrição trata da questão da própia definição de função de pertinância em conjuntos fuzzy. A segunda restrição trata da divisão da pertinência do dado a um ou vários grupos. A terceira restrição impede que qualquer grupo seja vazio (sem dados associados a ele); e que um grupo tenha associado a ele todos os dados do conjunto com pertinência máxima (1). A partir destas restrições é construída uma matriz de pertinência U. Rocha et al. (2012) trazem a interpretação do Fuzzy c-means (FCM) proposto em Bezdek (1981b) em comparação com o resultado produzido por um agrupamento crisp (não fuzzy). O processo de agrupamento fuzzy é exemplificado por meio de objetos, como os contidos na Figura 2 (a). Para agrupar esse conjunto de objetos, três grupos foram criados: MAÇÃS, PERAS e LARANJAS. A Figura 2 (b) ilustra um processo de agrupamento gráfico (ou morfológico) desses objetos, cuja metodologia consiste em colocar sobre cada objeto um rótulo que indica a qual grupo natural ele pertence, onde P = Pera (objeto com a marca P, pertencente ao grupo natural das Peras), M=Maçã, L=Laranja, com exceção do objeto oval O3, um LIMÃO, que representa uma anomalia nos dados, frente à rotulação definida neste exemplo. As Figuras 3 e 4 trazem um exemplo numérico hipotético, onde matrizes Uh (matriz de pertinência clássica) e U f (matriz de pertinência fuzzy) representam um agrupamento crisp e agrupamento fuzzy, respectivamente. Note que no agrupamento crisp o objeto O3 foi definido como sendo uma Laranja (objeto pertence ao grupo das Laranjas com grau de pertinência 1). No agrupamento fuzzy, esse mesmo objeto foi melhor agrupado como Laranja (o maior grau de pertinência para este objeto é 0,85), entretanto, ele também possui características de Maçã e de Pera, visto que pertence a esses grupos com graus de pertinência 0,09 e 0,06, respectivamente..

(47) 23. Figura 2: Agrupamento Morfológico: (a) Objetos que se deseja agrupar; (b) Agrupamento Morfológico dos objetos (P=Pera, M=Maçã, L=Laranja). Fonte: (BEZDEK, 1981b) Diferentes graus de pertinência de um dado a diversos grupos permitem diferentes interpretações de agrupamento, o que não acontece no processo de agrupamento crisp. Além disso, essa modelagem fuzzy produz uma solução com estrutura mais flexível que a solução dada pelo agrupamento crisp.. Figura 3: Exemplo de matriz de pertinência produzida por um agrupamento Crisp. Fonte: (BEZDEK, 1981b). Figura 4: Exemplo de matriz de pertinência produzida por um agrupamento fuzzy. Fonte: (BEZDEK, 1981b) O algoritmo FCM atualiza a pertinência de cada observação x j ao i-ésimo cluster com base na distância Euclidiana da observação x j ao centroide (vi ) do i-ésimo cluster. Esta distância é definida como, D2i j = (x j − vi )T (x j − vi ), onde x j = (x j1 , . . . , x jn )T e vi = (vi1 , . . . , vin )T ver.

(48) 24. (BEZDEK, 1981b). E um objeto que antes pertencia a um grupo (identificado por seu centroide) pode passar a pertencer a outro. Em função da distância Euclidiana, o FCM tem como limitação apenas identificar clusters esféricos. Desta maneira, assume-se a ausência de correlação entre os dados, hipótese que muitas vezes não é razoável. Uma métrica que pode ser utilizada para avaliar a correlação dos dados dentro de cada cluster é a distância de Mahanalobis que é definida por:. D2i j = (x j − vi )T S−1 (x j − vi ) onde S é a matriz de correlação dos dados. Vale salientar que a distância Euclidiana é um caso particular da distância de Mahanalobis, fixando S = I, onde I é a matriz identidade. Em Cerioli (2005) os autores motram exemplos da limitação de se utilizar a distância Euclidiana para a obtenção de clusters não esféricos e sugerem o uso da distância de Mahanalobis. A seguir serão detalhados os agrupamentos GK e Supervised Fuzzy Clustering. 2.1.2.1 GUSTAFSON-KESSEL(GK) O algoritmo proposto por Gustafson-Kessel (GK) (GUSTAFSON; KESSEL, 1979), é uma extensão do algoritmo FCM, empregando uma norma adaptável da distância, a fim de detectar grupos de formas elipsoidais na série de dados, já que o FCM apenas detecta (grupos) esféricos. A distância (D2i j ) entre o centroide do i-ésimo cluster e a j-ésima observação é dada por: D2i j = (x j − vi )T Mi (x j − vi ). (1). Sendo que o centroide do i-ésimo cluster é definido por vi = (vi1 , . . . , vin )T , vi ∈ Rn , e. a j-ésima observação é dada por x j = (x j1 , . . . , x jn )T , onde x j ∈ Rn .. Mi ⊂ Rn×n é uma matriz simétrica e positiva definida dada por:. 1/n −1 Fi. Mi = |Fi |1/n ρi. Caso fixe-se Mi = I tem-se a distância euclidiana e Mi = S−1 tem-se a distância de Mahanalobis, sendo S a matriz de correlação dos dados. Importante ressaltar que esta matriz S pode ser utilizada quando não é possível diferenciar nenhuma observação por grupo, ou seja,.

(49) 25. ui j = 1/G situação não muito comum em aplicações fuzzy. Visando permitir variações na forma de cada classe e evitar que a métrica cresça sem limites considera-se que |Mi | = ρi , onde o parâmetro ρi define o limite do volume do cluster i e. a matriz de covariância fuzzy é dada por:. N. Fi =. ∑ umij (x j − vi)(x j − vi)T. j=1. (2). N. ∑ umij j=1. O objetivo no GK é minimizar a função objetivo dada por:. N. G. JG K = ∑. ∑ umij D2i j. (3). i=1 j=1. onde ui j é a pertinência da j-ésima observação ao i-ésimo cluster e m é um número real positivo, tal que m ∈ (1, ∞) utilizado como parâmetro de fuzificação. Quando m → ∞, ui j →. 1 G. ou seja, a. observação j tem a mesma pertinência como todos clusters.. Em relação a ui j , as seguintes restrições devem ser impostas:. 0 ≤ ui j ≤ 1, G. ∑ ui j = 1, i=1 N. 0<. ∑ ui j < N, j=1. ∀i = 1, . . . , G, j = 1, . . . , N ∀ j = 1, . . . , N ∀i = 1, . . . , G. (4). Com essas restrições tem-se a seguinte Função de Lagrange; ! G. JL G K = ∑. N. ∑ umij Di j + λ j. G. ∑ ui j − 1. + βi (|Mi | − ρi ) .. i=1. i=1 j=1. Para obter a atualização para ui j em cada iteração, deriva-se 1. ui j = ∑Rk=1. . D2i j D2k j. . 1 m−1. .. ∂ JL G K ∂ ui j. (5). obtendo, (6).

(50) 26. E para atualização de vi , deriva-se. ∂ JL G K ∂ vi. obtendo:. vi =. ∑Nj=1 um i jx j ∑Nj=1 um ij. .. (7). Um critério de parada do algoritmo pode ser dado em relação à função objetivo:. JG K k+1 − JG K k < ε. (8). Onde ε é especificado de maneira arbitrária. Na iteração k + 1 é obtida a estimação de ui j e vi .. Importante ressaltar que fixando Fi = σ 2 In , resulta o FCM, caso particular do GK. Em função desta condição para Fi , o algoritmo FCM é mais apropriado para identificar agrupamentos esféricos uma vez que não assume correlação entre os dados dentro de cada agrupamento. 2.1.2.2 SUPERVISED FUZZY CLUSTERING Seja Z = [z1 , z2 , . . . , z j , . . . , zN ], uma matriz onde cada coluna é definida por z j = [xTj , y j ], y j ∈ {B1 , . . . , Bk , . . . , BC } j = 1, . . . , N e x j = (x j1 , . . . , x jl , . . . , x jn )T , j = 1, . . . , N, l = 1, . . . , n. A matriz de pertinência fuzzy é representada por U = [ui j ]G×N , onde cada elemento. ui j representa a pertinência da observação x j ao i-ésimo grupo. A matriz dos centroides é definida por V = [v1 , v2 , . . . , vG ], onde, vi = (vi1 , . . . , vil , . . . , vin ) contém as coordenadas do i-ésimo grupo, i = 1, . . . , G, sendo V ∈ RGn . A estimação da matriz de pertinência e dos centroides é feita através da minimização de :. G. J(Z, U, V) = ∑. N. ∑ (ui j )mD2i, j (x j , gi). (9). i=1 j=1. Onde, a distância da j-ésima observação ao i-ésimo grupo (gi ) é dada por:. D2i, j (x j , gi ) = (P(gi ). 1 −1 exp((x j − vi )T (F−1 i )(x j − vi )) × P(Bk = y j |gi )) |2πFi |N/2. (10). a matriz Fi é diagonal, as variâncias (σil2 ) são definidas na equação (13), P(gi ) e P(Bk = y j |gi ) são definidas pelas equações (15) e (14) respectivamente.. Para o cálculo dos centroides e matriz de pertinência as seguintes restrições devem ser.

(51) 27. observadas:. 0 ≤ ui j ≤ 1,. ∀i = 1, . . . , G, j = 1, . . . , N. G. ∑ ui j = 1,. ∀ j = 1, . . . , N. i=1 N. 0≤. ∑ ui j ≤ N,. ∀i = 1, . . . , G. j=1. (11). Com estas restrições tem-se a seguinte Função de Lagrange G. JL = (Z, U, v) = ∑. N. N. G. j=1. i=1. ∑ (ui j )mD2i, j (x j , gi) + ∑ λ j ( ∑ ui j − 1). i=1 k=1. (12). Calculando as derivadas parciais da equação (12) em relação a U e vi , obtêm-se as equações para o cálculo da matriz de partição e centroides que são atualizadas em cada iteração do algoritmo. A convergência é avaliada através de um critério de parada do algoritmo que dependa de U, por exemplo. A seguir são detalhados os passos do algoritmo. Inicialização Dado um conjunto de dados Z , inicialize U = [ui j ]R×N uma partição aleatória 2 , onde ui j denota a pertinência que a observação x j tem em relação ao i-ésimo grupo. Repita para h=1,2,. . .. 1. Calcule os parâmetros dos grupos • Calcule os centros e variâncias da função de pertinência Gaussiana (os elementos da diagonal de Fi matriz de covariância).. vhi σil2. =. =. (h−1) m ) x. ∑Nj=1 (ui j. j. (h−1) m ). ∑Nj=1 (ui j. (h−1) m ) (x. ∑Nj=1 (ui j. jl − vil ). 2. (h−1) m ). ∑Nj=1 (ui j. (13). • Estime os parâmetros de probabilidade dos consequentes no grupo gi . 2a. inicialização da matriz influencia nos resultados por isso os experimentos consideram uma média de diferentes inicializações..

(52) 28. P(Bk |gi ) =. (h−1) m ). ∑ j|y j =Bk (ui j. (h−1) m ). ∑Nj=1 (ui j. (14). • Estime a probabilidade a priori do cluster.. P(gi ) =. 1 N. N. (h−1) m. ∑ (ui j. ). (15). j=1. 2. Calcule a distância D2i j (z j , gi ) 3. Atualize a matriz de partição. uhij =. 1 2 2 1/m−1 ∑G l=1 (Di j (x j , gi )/Dl j (x j , gi )). (16). até k Uh − Uh−1 k< ε. Conforme será discutido no capítulo 4, além de considerar algoritmos de agrupamento fuzzy tradicionais, este trabalho propõe um novo algoritmo de agrupamento fuzzy, o GKFP. Em uma das propostas apresentadas no capítulo 3, a partir de projeções do centroide e variâncias dentro de cada agrupamento são definidas as funções de pertinência que caracterizam os Conjuntos Fuzzy que podem ter uma interpretação linguística. Nos modelos Mamdani, os conjuntos fuzzy representam tanto os antecedentes quanto os consequentes de uma regra fuzzy. A seção a seguir apresenta a definição de regra fuzzy. 2.1.3 REGRAS FUZZY As relações fuzzy são generalizações das relações tradicionais (PEDRYCZ; GOMIDE, 1998, 2007). Nas relações fuzzy, cada elemento de um conjunto possui uma associação (seja nula ou não) com cada elemento de outro conjunto. Sejam X e Y dois universos quaisquer. Uma relação fuzzy R é um Conjunto Fuzzy definido em X × Y que associa a cada elemento de X × Y um grau de pertinência, µR (x, y), definido no intervalo unitário, ou seja, R : X × Y −→ [0,1] e é dada por:. R = {((x, y), µR (x, y))|(x, y) ∈ X × Y}. (17).

(53) 29. As regras fuzzy podem ser interpretadas como relações fuzzy onde a semântica da regra é definida por uma função que relaciona o antecedente com o consequente. Através do conhecimento de um especialista ou de maneira automática é possível traduzir de forma linguística o conhecimento adquirido sobre determinado assunto. Considere o exemplo: "Se a velocidade do trem é baixa então a pressão nos freios é média". Nesta regra as variáveis linguísticas são velocidade e pressão com valores linguísticos baixa e média respectivamente. Os universos das variáveis linguísticas são particionados e um Conjunto Fuzzy é associado a cada valor linguístico. Nos casos mais simples, sistema SISO (do inglês Single Input Single Output) tem-se: Se X é A então Y é B, que pode ser abreviada como A −→ B. Para semânticas conjun-. tivas esta regra pode ser representada como uma relação no produto cartesiano X × Y , dada. por:. R : A × B −→ [0, 1] (18) A pertinência de uma observação (x, y) com a regra R pode ser calculada por:. µR (x, y) = f (µA (x), µB (y)). (19). Onde f:[0, 1]2 −→ [0, 1] é a semântica da regra A −→ B, µA e µB são as funções de pertinência associadas aos Conjuntos Fuzzy A e B respectivamente.. Com uma base de regras definida e associando Conjuntos Fuzzy com os valores linguísticos é necessário ainda definir um mecanismo de raciocínio que realiza um processo de inferência, para se obter a saída ou conclusão. A seguir é detalhado este processo de inferência. 2.1.4 SISTEMAS DE INFERÊNCIA FUZZY Os Sistemas de Inferência Fuzzy (SIF) são modelos onde a partir de cada observação (entrada) é obtida uma conclusão (saída). No processo de inferência as entradas crisp são transformadas em singletons e através do matching destes com as funções de pertinência dos Conjuntos Fuzzy a base de regras é ativada. É necessária uma semântica da regra definida no.

(54) 30. modelo de inferência para obter saída ou conclusão a partir da agregação dos matchings. Após a obtenção da saída fuzzy em alguns casos é necessário realizar um processo de defuzzificação, para retornar a saída numérica geralmente necessária em sistemas de controle e automação. As etapas do sistema estão descritas na Figura 5.. Figura 5: Etapas da Inferência em Sistema fuzzy adaptado de (CRUZ, 2001) No caso dos classificadores, a saída do sistema em geral é dada por um rótulo identificando uma classe. Na sequência serão detalhados dois principais tipos de modelos de SIF: Mamdani e Takagi-Sugeno. 2.1.4.1 INFERÊNCIA ESCALONADA NO MODELO MAMDANI Um dos processos de inferência mais utilizados para obter conclusões a partir de fatos e regras fuzzy é a inferência escalonada (ou max-min) no modelo de Mamdani (Mamdani;Assilian ,1975). Para a descrição dos passos do modelo Mamdani considere uma base com R regras e n variáveis no antecedente e uma no consequente. (fato Pi ): (regra R1 ): (regra RR ): (conclusão ):. X1 é A1 E X2 é A2 E · · · E Xn é An .. .. Se X1 é A11 E · · · E Xn é A1n então Y é B1. Se X1 é AR1 E · · · E Xn é ARn então Y é BR. Y é B.. O processo de inferência escalonada (ou max-min) no modelo de inferência Mamdani.

(55) 31. consiste de 4 etapas.. 1) Matching: Avalia a similaridade de cada variável do fato com o Conjunto Fuzzy respectivo do antecedente. Esta similaridade é dada por:. Possr,v (Av , Arv ) = sup[min(µAv (xv ) , µArv (xv ))], v = 1, . . . , n. (20). 2) Agregação dos antecedentes: O grau de ativação da regra é obtido através da agregação dos antecedentes. A agregação pode ser obtida pelo operador norma-t (norma triangular) se as variáveis são ligadas por E (conjunção) e pelo operador norma-s (conorma triangular) se as variáveis são ligadas por OU (disjunção) . Conjunção de n variáveis na r-ésima regra:. µ r = tnv=1 Possr,v (Av , Arv ). (21). Disjunção de n variáveis na k-ésima regra: µ r = snv=1 Possr,v (Av , Arv ). (22). As principais normas-t utilizadas são o mínimo e o produto e norma-s é o máximo.. 3) Conclusão Individual por regra: Para regras com semântica conjuntiva é aplicada uma norma-t entre o Conjunto Fuzzy do consequente e o grau de ativação da regra. Desta maneira, um novo Conjunto Fuzzy é inferido Or = f (µ r , µBr ) = µ r tµBr. (23). • Or Conjunto Fuzzy inferido pela regra r • µBr Conjunto Fuzzy do consequente da regra r 4) Conclusão Geral: As saídas inferidas de cada regra são agregadas em geral pelo operador max R Or Oˆ = maxr=1. (24). onde Oˆ é o Conjunto Fuzzy resultante do conjunto total de regras. A saída final não-fuzzy.

(56) 32. ˆ onde o processo de defuzzificação será inferida pelo SIF é então dada por: yˆ = de f uzz(O), discutido na seção 2.1.5. 2.1.4.2 INFERÊNCIA ESCALONADA NO MODELO TAKAGI-SUGENO Outro modelo bastante utilizado, em especial quando não se dispõe do especialista e sim de dados de treinamento, é o modelo Takagi-Sugeno (TAKAGI; SUGENO, 1985). Neste modelo as regras têm a forma: (fato Pi ): (regra. R1 ):. (regra RR ): (conclusão ):. X1 é A1 E X2 é A2 E · · · E Xn é An .. .. Se X1 é A11 E · · · E Xn é A1n então Y é B1 = s1 (p1 , X). Se X1 é AR1 E · · · E Xn é ARn então Y é BR = sR (pR , X). Y é y. ˆ. onde pr = [pr,0 , pr,1 , pr,2 , . . . , pr,n ] contém os parâmetros do consequente. X = [X1 , X2 , . . . , Xn ] são as variáveis de entrada. O processo de inferência escalonada no modelo de inferência Takagi-Sugeno possui 4 passos: 1) Matching: Idêntico ao modelo de Mamdani. 2) Agregação dos antecedentes: Idêntico ao modelo de Mamdani. 3) Conclusão Individual por regra: Para cada regra, as observações de entrada (correspondentes aos antecedentes) são aplicadas na função sr (pr , X) que define o consequente juntamente com os parâmetros do vetor pr . 4) Conclusão Geral: Os valores inferidos sr para cada regra individualmente são agregados pela média ponderada resultando em y. ˆ. yˆ =. ∑Rr=1 µ r sr (pr , X) µr. (25). O modelo Takagi-Sugeno não necessita de um método de defuzzificação para gerar a saída do sistema, uma vez que yˆ já é um valor não-fuzzy. 2.1.5 MÉTODOS DE DEFUZZIFICAÇÃO Em muitas situações é necessário que se aplique um processo de defuzzificação na saída do sistema fuzzy para que retorne um valor não fuzzy. É o caso dos modelos Mamdani, diferente do Takagi-Sugeno na qual a saída é não fuzzy. Seja O um conjunto fuzzy definido no.

(57) 33. universo Y, então: • Média dos Máximos (MoM): Os valores do domínio correspondentes ao máximo da função de pertinência do conjunto O são identificados e a média dos limites (inferior e supe-. rior) define o valor não-fuzzy. • Centro de Massa(CoG): O resultado da transformação de O em um valor não-fuzzy é o centro de massa, dado por:. R. y yˆ = R. µO (y)y dy. y µO (y) dy. Nas Figuras 6 e 7 estão ilustrados os métodos de defuzzificação MoM e CoG.. Figura 6: Métodos de defuzzificação Mom. Figura 7: Métodos de defuzzificação CoG Neste trabalho os consequentes dos Sistemas Fuzzy são rótulos cada um associado a uma medida de probabilidade. Estes sistemas são denominados de Sistema Fuzzy Probabilísticos. No SFP o processo de defuzzificação em geral não é necessário. O SFP é detalhado na próxima seção. 2.1.6. SISTEMA FUZZY PROBABILÍSTICO A incerteza está associada à maioria dos experimentos (PEDRYCZ; GOMIDE, 1998).. A abordagem apropriada para quantificar essa incerteza depende do tipo de incerteza envolvida..

(58) 34. Em Meghadadi e Akbarzadeh (2001) os autores apresentam um exemplo que envolve dois tipos de incerteza. Qual a probabilidade de se retirar uma bola escura de uma urna? Neste caso o problema poderia ser simplificado eliminando-se a ambiguidade e separando as bolas em 2 classes, claras e escuras, através de um limiar para divisão de classes e pensar numa abordagem frequentista, uma razão entre a quantidade de bolas escuras e o total de bolas da urna (Teoria das Probabilidades)(MIGON; GAMERMAN, 1999). No entanto considerando os 2 tipos de incerteza (em relação à ocorrência da retirada e à noção vaga e ambígua associada ao termo bola escura) o problema se torna mais complexo. Pode-se citar, por exemplo, Colettia e Scozzafavab (2006) que contextualizam um exemplo deste uso conjunto do seguinte modo: suponha que uma caixa tenha bolas de diferentes tamanhos e o evento de retirada de uma bola dessa caixa. Deseja-se calcular a probabilidade do evento Gr = retirar uma bola grande. Logo percebe-se que o evento Gr é um evento fuzzy, mas conhecendo-se as frações fi de bolas de cada tamanho ti na caixa, a probabilidade será dada por: P(Gr ) = ∑i P(Gr |ti )P(ti ) ≈ ∑i µ(ti ) fi , sendo µ(ti ) a função fuzzy para o evento Gr , e fi a frequência do tamanho ti da i-ésima bola. É possível se pensar em várias situações neste exemplo com diferentes níveis de incerteza e, ainda assim, o problema poderia ser tratado com uso conjunto de uma função de pertinência fuzzy para descrever a incerteza associada à imprecisão linguística e pelo Teorema de Bayes para tratar a incerteza probabilística. Percebe-se, porém, que essa abordagem é diferente do bem estabelecido conceito de probabilidade fuzzy (PEDRYCS, 1998). Para se entender a diferença, considere as seguintes sentenças: 1. É bastante provável que amanhã choverá pesadamente. 2. Amanhã choverá pesadamente com probabilidade de 90%. Na sentença 1, tem-se um conceito fuzzy, pesadamente e a própria probabilidade também aparece de forma fuzzy: bastante provável. Já na sentença 2, continua-se com um conceito fuzzy, porém, sua probabilidade de ocorrência é conhecida. É neste segundo tipo de situação que Meghdadi e Akbarzadeh-T (MEGHDADI; AKBARZADEH-T, 2001) estabeleceram o conceito de Lógica fuzzy Probabilística e, consequentemente, de Sistemas Fuzzy Probabilísticos (SFP). Neste tipo de sistema, onde ambos os tipos de incerteza são considerados, há uma base de regras cujo consequente é seccionado em diferentes conjuntos, cada qual com uma determinada probabilidade de ocorrência..