Método fuzzy para aprendizagem online de parâmetros em redes bayesianas

(1)

UNIVERSIDADE FEDERAL DE SANTA CATARINA PROGRAMA DE P ÓS GRADUAÇ ÃO EM CIÊNCIA DA

COMPUTAC¸ ˜AO

Mariana Dehon Costa e Lima

M´ETODO FUZZY PARA APRENDIZAGEM ONLINE DE

PAR ˆAMETROS EM REDES BAYESIANAS

Florian´opolis 2019

(2)

(3)

Tese submetida ao Programa de Pós Gradua¸cão em Ciência da Computa¸cão da Universidade Federal de Santa Ca-tarina para a obten¸cão do Grau de Doutora em Ciência da Computa¸cão.

Florian´opolis 2019

(4)

Ficha de identificação da obra elaborada pelo autor,

através do Programa de Geração Automática da Biblioteca Universitária da UFSC.

Lima, Mariana

Método Fuzzy para Aprendizagem Online de Parâmetros em Redes Bayesianas / Mariana Lima ; orientadora, Silvia Modesto Nassar, 2019. 106 p.

Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós Graduação em Ciência da Computação, Florianópolis, 2019.

Inclui referências.

1. Ciência da Computação. 2. Redes Bayesianas. 3. Aprendizagem Online. 4. Aprendizagem de Parâmetros. 5. Sistemas Fuzzy. I. Modesto Nassar, Silvia. II. Universidade Federal de Santa Catarina. Programa de Pós-Graduação em Ciência da Computação. III. Título.

(5)

Esta Tese foi julgada aprovada para a obten¸cão do T´ıtulo de “Doutora em Ciência da Computa¸cão”, e aprovada em sua forma fi-nal pelo Programa de Pós Gradua¸cão em Ciência da Computa¸cão da Universidade Federal de Santa Catarina.

Florian´opolis, 18 de mar¸co 2019.

Prof. Jos´e Lu´ıs Almada G¨untzel, Dr. Coordenador do Programa Banca Examinadora:

Silvia Modesto Nassar

Universidade Federal de Santa Catarina Orientadora

Presidente

Heitor Silverio Lopes Participa¸cão por V´ıdeo-Conferência Universidade Tecnológica Federal do Paraná

(6)

(7)

Julio Cesar Nievola

Participa¸cão por V´ıdeo-Conferência Pontif´ıcia Universidade Católica do Paraná

Mario Antônio Ribeiro Dantas Participa¸cão por V´ıdeo-Conferência Universidade Federal de Juiz de Fora

Mauro Roisenberg

Universidade Federal de Santa Catarina

Paulo Afonso Bracarense Costa Participa¸c˜ao por V´ıdeo-Conferˆencia

Universidade Federal do Paran´a

Rog´erio Cid Bastos

(8)

(9)

(10)

(11)

AGRADECIMENTOS

Agrade¸co aos meus pais pelo o incentivo à educa¸cão desde a infância que moldou não apenas a minha personalidade quanto a minha vida. A dedica¸cão ´ımpar deles, o apoio e o amor incondicional foram os alicerces que me fizeram acreditar que eu tinha a capacidade de enfrentar esse desafio. Eles são os grandes vitoriosos por trás de toda essa jornada e essa conquista também é deles.

Agrade¸co à minha tia Marlene que sempre foi a minha grande inspira¸cão e a maior influência intelectual na minha vida. Agrade¸co também aos meus familiares e aos meus avós, em especial à minha avó Nininha (in memoriam). Agrade¸co também aos meus amigos (novos e antigos) que de alguma forma contribu´ıram para o meu bem-estar mental durante essa jornada. Obrigada Tatiane, Iris, Débora, Verônica, Sarah, Rodolfo, Alyson e Elaine.

Agrade¸co principalmente à Ana Luiza que esteve em todas as eta-pas desse trabalho e me acompanhou tanto nos momentos bons quanto naqueles em que a ansiedade e afli¸cão quase me venceram. Muito obri-gada pelas noites em claro, pelas revisões incessantes, pela preocupa¸cão, por sempre acreditar em mim e sempre deixar claro que eu não estava sozinha. Muito obrigada por ser a base emocional por trás desse tra-balho e eu não conseguiria chegar até aqui sem você.

Agrade¸co à minha orientadora Silvia Modesto Nassar que é, e sempre vai ser, a minha referência de integridade humana e acadêmica em um mentor. Obrigada pelo conhecimento, base e técnica transmiti-dos ao longo transmiti-dos anos. Muito obrigada, principalmente, pela confian¸ca no meu trabalho e por encarar esse desafio comigo. Ter sido sua orien-tanda tanto no mestrado quanto no doutorado foi uma grande honra e esse fato me impactou não apenas por todo conhecimento que adquiri quanto pela ética de trabalho impecável que vivenciei durante esses anos.

Agrade¸co também aos professores Paulo José de Freitas Filho e Mauro Roisenberg por todo apoio e orienta¸cão ao longo dos anos e na execu¸cão desse trabalho.

O presente trabalho foi realizado com apoio da Coordena¸c˜ao de Aperfei¸coamento de Pessoal de N´ıvel Superior - Brasil (CAPES) - C´odigo de Financiamento 001.

(12)

(13)

“Education is the most powerful weapon which you can use to change the world”. (Nelson Mandela, 23 June 1990)

(14)

(15)

RESUMO

Em problemas de aprendizagem, existem situa¸cões onde os dados de treinamento não estão totalmente dispon´ıveis durante o momento do aprendizado. Eles são gerados de forma interativa no tempo ou on-line e tem entre as suas caracter´ısticas a possibilidade de haver dados inconsistentes ou faltantes. Em Redes Bayesianas, a aprendizagem é dividida em duas categorias: estrutural (relacionada ao grafo da rede e suas liga¸cões) e paramétrica (relacionada a probabilidade condicional das liga¸cões). Neste trabalho é apresentado o EMFuzzyOnline - um método de aprendizagem de parâmetros online que se adapta rapida-mente à mudan¸cas na distribui¸cão dos dados. Essa adapta¸cão busca não apenas de reproduzir a distribui¸cão dos dados na Rede Bayesiana (aprendizagem generativa), como aumentar a acurácia da rede como um todo (aprendizagem discriminativa). O método utiliza as técnicas fuzzy, estat´ıstica e inferência bayesiana. A abordagem é comparada com o método Voting EM Adaptativo e a Maximiza¸cão da Verossimilhan¸ca considerando duas condi¸cões de simula¸cão: quando a distribui¸cão dos dados é desconhecida, e quando ela é conhecida e passa por mudan¸cas bruscas durante a aprendizagem. Os experimentos foram feitos consi-derando três cenários distintos: testando a rede estado da arte proposta no método Voting EM, com bases de dados públicas do repositório UCI e com uma base de dados real de perfura¸cão de po¸cos de petróleo. O EMFuzzyOnline se mostrou robusto e versátil em ambas as situa¸cões demonstrado através de experimenta¸cão e resultados estat´ısticos, além de oferecer uma parametriza¸cão mais simplificada do que a abordagem tradicional - reduzindo de três para um parâmetro de configura¸cão. Palavras-chave: Redes Bayesianas. Aprendizagem Online. Apren-dizagem de Parâmetros. AprenApren-dizagem Generativa. AprenApren-dizagem Discriminativa. Sistemas Fuzzy.

(16)

(17)

ABSTRACT

In learning problems, there are situations where training data is not fully available at the learning time. They are incrementally generated by time, defining a type of domain called online that has among its characteristics the possibility of data failure or even missing data. In Bayesian networks, learning is divided into two categories: structure (related to the graph of conditional relations) and parameters (related to the strength of conditional relations). In this work we present EM-FuzzyOnline, an online parameter learning method that quickly adapts to changes in the environment not only to reproduce the probability distribution (generative learning) but also to increase the accuracy in the network (discriminative learning) - it uses fuzzy techniques, statis-tics and general inference to achieve this goal. The approach is compa-red with the Adaptive Voting EM method and to Maximum Likelihood considering two simulation conditions: when distributions are unknown and when distributions undergo to abrupt changes. The experiments were made considering three different scenarios: testing the state-of-art network proposed on Voting EM Adaptive Method, with public datasets from UCI repository and with a real life database from oil wells perforation. The EMFuzzyOnline achieves good results in both situations by adjusting to environment changes more quickly and by simplifying the parameterization of the traditional approach.

Keywords: Bayesian Networks. Online Learning. Parameter Lear-ning. Generative LearLear-ning. Discriminative LearLear-ning. Fuzzy Systems.

(18)

(19)

LISTA DE FIGURAS

Figura 1 Rede para Deteçcão de Fraude no Cartão de Crédito. Fonte: Heckerman (1995). . . 35 Figura 2 Tipos de Racioc´ınio Bayesiano. Fonte: Korb e Nicholson (2010). . . 36 Figura 3 Exemplo - Representa¸cão de uma Rede Bayesiana. Fonte: a autora. . . 38 Figura 4 Compara¸cão entre uma Rede Bayesiana do tipo poli-árvore e uma rede multiconectada. Fonte: a autora. . . 39 Figura 5 Representa¸cão de um indiv´ıduo no DPV. Fonte: Lima (2014). . . 42 Figura 6 Fluxograma do método DPV. Fonte: Lima (2014). . . 42 Figura 7 Sistema Fuzzy do algoritmo EMFuzzyOnline. Fonte: a autora. . . 59 Figura 8 Conjuntos fuzzy para o p-valor. Fonte: a autora. . . 63 Figura 9 Sub-sistema Fuzzy para a deteçcão de tendência em θij.

Fonte: a autora. . . 63 Figura 10 Fun¸cões de pertinência para o grau de possibilidade a posteriori das Hipóteses no sub-sistema fuzzy de tendência. Fonte: a autora. . . 64 Figura 11 Conjunto de Regras para os Sub-sistemas Fuzzy de Tendência. Onde: altamente significativo = AS , significativo = S e não signi-ficativo = NS. Fonte: a autora. . . 65 Figura 12 Superf´ıcie de resposta do Sub-sistema de inferência fuzzy para tendência. Fonte: a autora. . . 65 Figura 13 Conjuntos Fuzzy para a probabilidade do erro de classi-fica¸cão. Fonte: a autora. . . 66 Figura 14 Conjuntos fuzzy para a taxa de ajuste m. Fonte: a autora. . . 67 Figura 15 Conjunto de Regras para determinar o valor do n´ıvel de ajuste m. Fonte: a autora. . . 68 Figura 16 Fluxograma dos procedimentos metodológicos utilizada para a obten¸cão dos Resultados Iniciais desta tese. Fonte: a autora. 71 Figura 17 Rede Bayesiana utilizada nos experimentos para a Si-tua¸cão 1 - proposta por Cohen, Bronstein e Cozman (2001b). . . . 73

(20)

Figura 18 Rede Bayesiana utilizada nos experimentos para a Si-tua¸cão 2. Fonte: a autora. . . 73 Figura 19 Convergência dos Algoritmos EMFuzzyOnline, Voting EM e MLE Online para a RB em treinamento. Figura 19.(a), 19.(b) e 19.(c) são exemplos da evolu¸cão de três parâmetros θijk.

Fonte: a autora. . . 75 Figura 20 Evolu¸cão da Log-verossimilhan¸ca (LV) da RB. Fonte: a autora. . . 76 Figura 21 Probabilidades marginais das RB ao final da Situa¸cão 2. Fonte: a autora. . . 77 Figura 22 Evolu¸cão da taxa de aprendizagem η para o nodo de sa´ıda Parent. Fonte: a autora. . . 78 Figura 23 Médias móveis com janela de 50 amostras da evolu¸cão da probabilidade do erro de classifica¸cão na Situa¸cão 2. Fonte: a autora. . . 78 Figura 24 Simula¸cão do treinamento online em duas situa¸cões: rede com CPT randomizada e com mudan¸ca brusca na distribui¸cão dos parâmetros para os datasets Balance Scale, Car Evaluation e Con-gressional Voting Records. Fonte: a autora. . . 84 Figura 25 Simula¸cão do treinamento online em duas situa¸cões: rede com CPT randomizada e com mudan¸ca brusca na distribui¸cão dos parâmetros para os datasets Breast Cancer Wisconsin (Diagnostic), Chess (King-Rook vs King-Pawn) e Tic-Tac-Toe Endgame. Fonte: a autora. . . 85 Figura 26 Simula¸cão do treinamento online em duas situa¸cões: rede com CPT randomizada e com mudan¸ca brusca na distribui¸cão dos parâmetros para os datasets Blogger, Dishonest Internet Users e Lenses. Fonte: a autora.. . . 86 Figura 27 Fluxograma de decisão para o Teste de Médias/Medianas (Teste t ou Mann-Whitney). Fonte: a autora. . . 88 Figura 28 Rede Bayesiana para a Série de Perfura¸cão de Petróleo. Diameter é o diâmetro da broca e WOB é o PSB. Fonte: a autora. 91 Figura 29 Simula¸cão da aprendizagem online em duas situa¸cões: rede com CPT randômicas e rede com uma mudan¸ca súbita de distribui¸cão nos dados para o dataset de Perfura¸cão de Po¸co de Petróleo. Fonte: a autora. . . 92

(21)

LISTA DE TABELAS

Tabela 1 Probabilidades Condicionais (CPT) para a variável Jo-alheria. Fonte: Korb e Nicholson (2010). . . 37 Tabela 2 Configura¸cão de Parâmetros para os métodos EMFuzzyOn-line e Voting EM.. . . 70 Tabela 3 Conjunto de CPT na Situa¸cão 1 que compõe a RB proposta por Cohen, Bronstein e Cozman (2001b). . . 73 Tabela 4 Conjunto de CPT que compõe a RB na Situa¸cão 2. . . 74 Tabela 5 S´ıntese dos resultados da Situa¸cão 1 da Rede Voting EM para os métodos EMFuzzyOnline (abreviado para EMFO) e Voting EM Adaptativo (abreviado para VEA) para 20 valores obtidos durante a simula¸cão. O valor x representa a média da simula¸cão e s o desvio padrão para cada uma das métricas (G∆t,

D∆t, e GD∆t). . . 81

Tabela 6 S´ıntese dos resultados da Situa¸cão 2 da Rede Voting EM para os métodos EMFuzzyOnline (abreviado para EMFO) e Voting EM Adaptativo (abreviado para VEA) para 20 valores obtidos durante a simula¸cão. O valor x representa a média da simula¸cão e s o desvio padrão para cada uma das métricas (G∆t,

D∆t, e GD∆t). . . 82

Tabela 7 S´ıntese dos resultados da Análise Estat´ıstica de com-para¸cão de médias/medianas para a Situa¸cão 1 e Situa¸cão 2. . . 89 Tabela 8 S´ıntese dos resultados da Análise Estat´ıstica de com-para¸cão de médias/medianas para a Situa¸cão 1 e Situa¸cão 2 no dataset de Pefura¸cão em Po¸cos de Petróleo. . . 93

(22)

(23)

LISTA DE ABREVIATURAS E SIGLAS

AM Aprendizagem de Máquina . . . 27 RB Rede Bayesiana . . . 27 DAG Grafo Ac´ıclico Direcionado . . . 28 MLE Método de Maximiza¸cão da Verossimilhan¸ca . . . 28 CPT Tabelas de Probabilidade Condicional . . . 29 IEEE Instituto de Engenheiros Eletricistas e Eletrônicos . . . 30 RBH Redes Bayesianas H´ıbridas . . . 40 EWD Discretiza¸cão por Igual Largura . . . 40 EFD Discretiza¸cão por Igual Frequencia . . . 40 DPV Discretiza¸cão Pico e Vale. . . 40 MCAR Dado missing completamente aleatório . . . 44 MAR Dado missing aleatório. . . 44 NMAR Dado missing não aleatório . . . 44 IA Inteligência Artificial . . . 45 EM Expectation Maximization . . . 45 ELR Extension to Logistic Regression . . . 47 DFE Discriminative Frequence Estimate . . . 48 ECL Método de verossimilhan¸ca condicional exato . . . 48 ACL Método de verossimilhan¸ca condicional aproximado . . . . 48 JoDiG Joint Discriminative - Generative Modelling . . . 48 CLL Métrica de fatorizarão da log-verossimilhan¸ca condicional 48 i.i.d. independentes e igualmente distribu´ıdas . . . 69 LV Log-verossimilhan¸ca. . . 75 LV Log-verossimilhan¸ca. . . 76 ROP Taxa de Perfura¸cão - Rate of Penetration . . . 90 UCS Unconfined Compressive Strength . . . 91 PSB Peso Sobre a Broca . . . 91 RPM Revolu¸cões por Minuto . . . 91

(24)

(25)

LISTA DE S´IMBOLOS

Ω Espa¸co de amostral onde Ω ={ω1, ω2,· · · , ωn}. . . 33

E Evento subconjunto de Ω. . . 33 P Distribui¸c˜ao de Probabilidade. . . 33 Ω Vetor de conjuntos disjuntos de hip´oteses. . . 34 S∗

Estrutura gr´afica de uma Rede Bayesiana. . . 37 Xi Uma vari´avel de uma Rede Bayesiana. . . 37

P ai Conjunto de pais da vari´avel Xi de uma Rede Bayesiana. . . 37

xk

i Poss´ıvel valor assumido por Xi.. . . 37

paj_i Poss´ıvel valor assumido por P ai. . . 37

θijk A probabilidade condicional P (Xi= xki|P ai= paji). . . 38

b

Xi Uma vari´avel cont´ınua. . . 40

b

xi Valor cont´ınuo assumido por bXi. . . 40

O(n) Complexidade computacional linear. . . 40 θ(t) _{Valor de θ assumido no tempo t.. . . 45}

η Taxa de aprendizagem. . . 51 q Parâmetro que define quantos desvios padrões de erro é aceitável

antes de se aumentar ηij no m´etodo Voting EM. . . 54

α Parâmetro que define o que é considerado convergência para diminuir o ηij no método Voting EM ou o n´ıvel de significância

em testes estat´ısticos. . . 54 m Parâmetro que define em qual propor¸cão ηij será

aumen-tado ou diminu´ıdo no método Voting EM ou n´ıvel de ajuste no método EMFuzzyOnline. . . 54 H0 Hipótese nula em um Teste Estat´ıstico. . . 62

H1 Hip´otese alternativa em um Teste Estat´ıstico.. . . 62

ΘT

ij Janela temporal móvel número T no método

EMFuzzyOn-line. . . 62 Xs Vari´avel de sa´ıda em um problema de classifica¸c˜ao. . . 65

maxδη A maior varia¸cão poss´ıvel de ηij em uma única intera¸cão no

(26)

(27)

SUM ÁRIO 1 INTRODUÇ ÃO E CONTEXTUALIZAÇ ÃO . . . 27 1.1 PROBLEMATIZAÇ ÃO . . . 28 1.2 OBJETIVOS . . . 29 1.2.1 Objetivo Geral . . . 29 1.2.2 Objetivos Espec´ıficos . . . 29 1.3 JUSTIFICATIVA E MOTIVAÇ ÃO . . . 29 1.3.1 Contribui¸cões . . . 30 1.4 ORGANIZAÇ ÃO DO TRABALHO . . . 31 2 FUNDAMENTAÇ ÃO TE ÓRICA . . . 33 2.1 REDES BAYESIANAS . . . 33 2.1.1 Defini¸cão Formal . . . 37 2.1.2 Inferência em Redes Bayesianas . . . 38 2.1.2.1 Discretiza¸cão . . . 40 2.2 APRENDIZAGEM EM REDES BAYESIANAS . . . 43 2.2.1 Aprendizagem de Parâmetros . . . 43 2.2.1.1 Aprendizagem Generativa de Parâmetros . . . 43 2.2.1.1.1 Aprendizagem de Parâmetros em Dados Missing . . . 44 2.2.1.2 Aprendizagem Discriminativa de Parâmetros . . . 46 2.2.2 Aprendizagem Online de Parâmetros . . . 49 2.2.2.1 EM(η) - Expectation Maximization . . . 50 2.2.2.1.1 Voting EM . . . 51 2.2.2.1.2 Convergência no Voting EM . . . 52 2.2.2.1.3 Voting EM - Adaptativo . . . 53 2.2.2.2 MLE Online . . . 54 2.3 CONSIDERAÇ ÕES SOBRE O ESTADO DA ARTE . . . 56 3 PROPOSTA - MÉTODO EMFUZZYONLINE . . . 59 3.1 DEFINIÇ ÃO DE VARI ÁVEIS . . . 61 3.2 TENDÊNCIA . . . 61 3.3 PROBABILIDADE DO ERRO DE CLASSIFICAÇ ÃO . . . 65 3.4 NÍVEL DE AJUSTE (m) . . . 66 4 RESULTADOS EXPERIMENTAIS . . . 69 4.1 EXPERIMENTO 1: REDE VOTING EM . . . 72 4.2 EXPERIMENTO 2: DATASETS P ÚBLICOS . . . 77 4.2.0.1 Avalia¸cão de Desempenho . . . 78 4.2.0.2 Resultados Experimentais . . . 80 4.2.1 Análise Estat´ıstica . . . 88

(28)

4.3 EXPERIMENTO 3: DATASET DE PERFURAÇ ÃO DE PETR ÓLEO . . . 90 4.3.1 Análise Estat´ıstica . . . 92 5 CONSIDERAÇ ÕES FINAIS . . . 95 5.1 CONCLUS ÕES . . . 95 5.2 TRABALHOS FUTUROS . . . 97 5.3 PUBLICAÇ ÕES . . . 98 REFERÊNCIAS . . . 99

(29)

27

1 INTRODUÇ ÃO E CONTEXTUALIZAÇ ÃO

Ser capaz de compreender os dados e aprender seus padrões e relacionamentos é uma preocupa¸cão constante na Inteligencia Com-putacional. A Aprendizagem de Máquina (AM) é um conjunto de técnicas computacionais que tem como objetivo a cria¸cão de sistemas capazes de adquirir e organizar o conhecimento de forma automática (MITCHELL, 1997).

Entre as técnicas de AM está a Aprendizagem Supervisionada (AS) que consiste em modelar o relacionamento entre vetores de en-trada e e sa´ıda, através de um conjunto de treinamento geralmente descrito como um pacote de dados (batch) referentes à algum dom´ınio de aplica¸cão (MITCHELL, 1997). O objetivo dessa técnica é realizar a classifica¸cão ou previsão de um vetor de sa´ıda (resultados) a partir de um vetor de entrada (evidências).

Entretanto, um grande número de dom´ınios produzem dados de forma cont´ınua e massiva além de mudar a sua distribui¸cão de dados durante a opera¸cão. É poss´ıvel citar, por exemplo, um sistema de ge-renciamento do trafego aéreo: nesse tipo de aplica¸cão é gerada uma grande quantidade de dados através de informa¸cões ambientais, estru-turais ou operacionais. Outras aplica¸cões com essas caracter´ısticas são aquelas formadas por sistemas de sensores ou ainda um grande servidor de e-mail que pode gerar centenas ou milhares de registros por segundo. Também caracter´ıstica deste tipo de dom´ınio é a ocorrência de eventuais dados missing (faltantes) durante a coleta de dados. Isso acontece devido às falhas de sensores, erro de leitura ou ainda a não disponibilidade da informa¸cão em um dado momento do tempo.

Dom´ınios com essas configura¸c˜oes s˜ao chamados de online e pos-suem duas propriedades principais:

• O conjunto de dados não está inteiramente dispon´ıvel durante a cria¸cão da fun¸cão de aprendizagem;

• A frequência e a distribui¸cão das variáveis do dom´ınio podem mudar com o tempo.

A Aprendizagem Online consiste em processar conjuntos de da-dos com as propriedades descritas acima com o objetivo de evoluir e atualizar o conhecimento do sistema com novas evidˆencias do ambiente (BURLUTSKIY et al., 2016).

Entre as t´ecnicas de Aprendizagem Supervisionada ´e poss´ıvel destacar as Redes Bayesianas (RB) (PEARL, 1988) - utilizada nesta

(30)

28

tese. A RB é um modelo de representa¸cão e racioc´ınio sob incer-teza através da probabilidade condicional entre as variáveis categóricas (qualitativas) de um dom´ınio expressadas por um grafo ac´ıclico direci-onado (Directed Acyclic Graph - DAG) (FRIEDMAN; GEIGER; GOLDSZ-MIDT, 1997).

Redes Bayesianas são capazes de mapear as correla¸cões entre as variáveis e serem uma linguagem apropriada e com recursos efici-entes para a representa¸cão da distribui¸cão conjunta de probabilida-des sobre um conjunto randômico de variáveis (FRIEDMAN; GEIGER; GOLDSZMIDT, 1997). A técnica é ainda mais atrativa por ser capaz de modelar problemas do mundo real e pela interpretabilidade da rede por não-especialistas (ZHOU, 2015).

1.1 PROBLEMATIZAC¸ ˜AO

O processo de Aprendizagem em Redes Bayesianas é dividido entre Aprendizagem de Estrutura e Aprendizagem de Parâmetros ( KU-RIHARA et al., 2001) (CHEN; SIVAKUMAR; KARGUPTA, 2001) (ZHANG; LIU, 2008). Enquanto a Aprendizagem de Estrutura tem como objetivo a constru¸cão do grafo da rede, a Aprendizagem de Parâmetros foca na atualiza¸cão das probabilidades condicionais entre as variáveis.

Os algoritmos de Aprendizagem de Parâmetros são divididos em duas categorias principais: generativo e discriminativo (SU et al., 2008). O primeiro cria as probabilidades condicionais considerando a distri-bui¸cão dos dados do dom´ınio e o segundo cria as probabilidades condi-cionais com o objetivo de aumentar a acurácia (acerto) na rede. Entre os algoritmos generativos os mais utilizados são os da maximiza¸cão da verossimilhan¸ca (MLE) obtido diretamente do conjunto de dados e o Algoritmo EM (Expectation-Maximization) (DEMPSTER; LAIRD; RU-BIN, 1977) em caso de dados missing (faltantes ou incompletos).

Uma das dificuldades da aprendizagem de parâmetros está na complexidade computacional dos algoritmos, uma vez que o problema no pior caso é do tipo NP-hard (RATNAPINDA; DRUZDZEL, 2015). Há ainda o risco do algoritmo ficar estacionado em um máximo local (MYERS; LASKEY; DEJONG, 1999).

A aprendizagem online de parâmetros é geralmente realizada através de adapta¸cões nos métodos generativos ao informar qual a in-fluência de dados futuros em rela¸cão aos dados passados. Esses métodos possuem como objetivo a convergência da rede, ou seja, reproduzir a distribui¸cão dos dados nas tabelas de probabilidades condicionais.

(31)

29

Esta tese busca responder a seguinte pergunta: é poss´ıvel a cria¸cão de um método de aprendizagem online de parâmetros que bus-que a otimiza¸cão conjunta da convergência e da acurácia na Rede Baye-siana?

1.2 OBJETIVOS

1.2.1 Objetivo Geral

Propor um método de aprendizagem online de parâmetros em Redes Bayesianas que considere tanto a convergência quanto a acurácia da RB.

1.2.2 Objetivos Espec´ıficos

• Investigar a atualiza¸c˜ao das Tabelas de Probabilidade Condicio-nal (CPT) das vari´aveis da RB no tempo;

• Investigar a rela¸cão entre a convergência da rede e da acurácia; • Investigar formas de realizar o hibridismo entre a abordagem

ge-nerativa e a discriminativa na aprendizagem de parâmetros; • Propor um método de aprendizagem online de parâmetros para

RB;

• Avaliar o m´etodo proposto.

1.3 JUSTIFICATIVA E MOTIVAC¸ ˜AO

Embora o racioc´ınio bayesiano seja probabil´ıstico, é poss´ıvel aliar técnicas e racioc´ınios complementares na RB. Um exemplo de técnica h´ıbrida é proposta no trabalho de Brignoli (2013) através um modelo que combina o racioc´ınio difuso (fuzzy) (ZADEH, 1965) com o racioc´ınio probabil´ıstico bayesiano em uma rede chamada Fuzzy-Bayesiana.

Em um trabalho desta autora (LIMA, 2014), foi desenvolvido um método de discretiza¸cão para Redes Bayesianas através de regras de cortes baseadas em dados e da otimiza¸cão global dos mesmos utilizando Algoritmo Genético.

(32)

30

Ao combinar diferentes técnicas de racioc´ınio para tratar a incer-teza em um dom´ınio, é poss´ıvel abordar mais de uma face do mesmo problema. A proposta desta tese está em explorar o hibridismo en-tre técnicas para propor um novo método de aprendizagem online de parâmetros que seja capaz de combinar elementos da aprendizagem generativa com a aprendizagem discriminativa.

1.3.1 Contribui¸c˜oes

O processo para identificar a lacuna de pesquisa dentro da apren-dizagem online de parâmetros foi feito a partir de uma revisão sis-temática na literatura utilizando as bases IEEE, Elsevier e Springer sobre essa temática.

Alguns pontos de referˆencia foram estabelecidos durante a busca: • O m´etodo funciona de forma online?

• O m´etodo ´e discriminativo ou generativo?

• O m´etodo possui tratamento para dados missing?

Nesta tese é proposto o método EMFuzzyOnline que realiza a aprendizagem online de parâmetros de forma h´ıbrida entre a aborda-gem discriminativa e a abordaaborda-gem generativa. O método proposto é baseado no método Voting EM Adaptativo (COHEN; BRONSTEIN; COZ-MAN, 2001a) e herda algumas de suas caracter´ısticas como a apren-dizagem online e a possibilidade de haver dados faltantes durante a aprendizagem.

Embora existam outros métodos de aprendizagem de parâmetros na literatura que fa¸cam o hibridismo entre a abordagem discriminativa e a generativa, ele é geralmente feito através da separa¸cão das variáveis em dois conjuntos distintos. O primeiro conjunto é tratado de forma generativa (objetivando a reprodu¸cão da distribui¸cão dos dados) e o se-gundo de forma discriminativa (com objetivo de aumento da acurácia em problemas de classifica¸cão). O EMFuzzyOnline realiza esse hi-bridismo de forma integrada entre as duas abordagens: uma mesma variável é aprendida simultaneamente de forma generativa e discrimi-nativa através de um sistema fuzzy de aprendizagem.

O ineditismo desta tese se encontra no conjunto de caracter´ısticas do método proposto: online, possibilitar dados faltantes e possuir um hibridismo real entre as duas abordagens clássicas de aprendizagem de parâmetros por meio de um sistema fuzzy.

(33)

31

A revisão da literatura realizada é mostrada no Cap´ıtulo 2 e busca evidenciar os pontos abordados nesta Se¸cão.

1.4 ORGANIZAC¸ ˜AO DO TRABALHO

Esta tese est´a dividida em cinco cap´ıtulos, com as seguintes ca-racter´ısticas:

• No Cap´ıtulo 1 é feita a introdu¸cão ao problema e dada uma visão geral da tese além do objetivo geral e dos objetivos espec´ıficos; • No Cap´ıtulo 2 é feita a revisão bibliográfica e a fundamenta¸cão

teórica sobre Aprendizagem de Parâmetros em Redes Bayesianas e os principais métodos da literatura nessa abordagem. Também são feitas as considera¸cões sobre o Estado da Arte;

• No Cap´ıtulo 3 ´e feita a proposta da tese e os procedimentos me-todol´ogicos adotados;

• No Cap´ıtulo 4 são mostrados os resultados e avalia¸cão estat´ıstica do método proposto;

• No Cap´ıtulo 5 s˜ao feitas as considera¸c˜oes finais e propostos tra-balhos futuros.

(34)

(35)

33

2 FUNDAMENTAÇ ÃO TE ÓRICA 2.1 REDES BAYESIANAS

A Rede Bayesiana (PEARL, 1988) é uma estrutura probabil´ıstica e requer conhecimento prévio em probabilidade. Nessa Se¸cão será feita uma introdu¸cão com os conceitos relacionados ao tópico que são utilizadas na abordagem proposta1_.

Um espa¸co amostral Ω ´e definido como um conjunto de resulta-dos poss´ıveis de um experimento, tal que Ω = {ω1, ω2,· · · , ωn}. Um

evento E ´e um subconjunto de Ω, ou seja, E⊆ Ω. Um evento ´e definido como elementar se ele estiver associado a apenas um elemento.

A distribui¸cão de probabilidade P é é definida por P : E → [0, 1]. As opera¸cões utilizadas no espa¸co amostral seguem a Teoria de Conjuntos, contendo a união (∪) e a interse¸cão (∩).

A probabilidade condicional de um evento E acontecer, conside-rando a ocorrˆencia de um evento F , ´e:

P (E|F ) = P (E∩ F )

P (F ) (2.1)

desenvolvendo a f´ormula, chega-se na seguinte equa¸c˜ao:

P (E∩ F ) = P (E|F )P (F ) = P (F |E)P (E) (2.2) o que implica no Teorema de Bayes:

P (E|F ) = P (F|E)P (E)

P (F ) (2.3)

Alguns conceitos s˜ao definidos:

• P (E|F ) ´e a probabilidade posteriori (posterior probability) de E dado F ;

• P (F |E) ´e a verossimilhan¸ca de E dado F - probabilidade objetiva vinda dos dados;

(36)

34

• P (E) ´e a probabilidade marginal do evento E.

Os eventos não elementares (compostos) são comumente calcu-lados expandindo a fun¸cão de probabilidade. Por exemplo, é poss´ıvel calcular o evento F pela equa¸cão:

P (F ) = X Hi∈H P (F∩ Hi) = X Hi∈H P (F|Hi)P (Hi) (2.4)

onde H ´e um vetor de conjuntos disjuntos (sem elementos em comum) e H1∪ H2∪ · · · ∪ Hw = Ω. Os eventos podem ser considerados como

condicionalmente independentes caso P (E|F ) = P (E) e P (F |E) = P (F ).

Uma RB é um grafo que sintetiza as rela¸cões causais entre as variáveis de um dom´ınio. A for¸ca dessas rela¸cões é expressa por um conjunto de parâmetros probabil´ısticos que define suas probabilidades condicionais.

Para ilustrar uma RB é utilizado o exemplo fornecido por Hecker-man (1995) que aborda o problema de deteçcão de fraude em cartões de crédito. A seguir são listadas as variáveis desse dom´ınio e seus poss´ıveis valores (classes):

• Fraude (f ): sim ou n˜ao;

• compra de Gasolina (g) nas últimas 24 horas: sim ou não; • compra de Joalheria (j) nas últimas 24 horas: sim ou não; • Idade (i): menos que 30 anos ou entre 30 e 50 anos ou maior que

50 anos;

• Sexo (s): feminino ou masculino.

Essas variáveis representam um dom´ınio que procura identificar se uma compra realizada através do cartão de crédito é ou não frau-dulenta. Considerando que Fraude é uma causa direta de Gasolina e que, além disso, Fraude, Idade e Sexo são causas diretas de Joalheria, obtemos a rede ilustrada pela Figura 1.

A RB possui a capacidade de inferˆencia bidirecional sendo capaz de responder perguntas como:

• Se o dono do cart˜ao tiver comprado gasolina nas ´ultimas 24 horas, qual a probabilidade de existir fraude?

(37)

35

Fraude

Gasolina

Joalheria

Idade

Sexo

Figura 1: Rede para Deteçcão de Fraude no Cartão de Crédito. Fonte: Heckerman (1995).

• Se o dono do cart˜ao tiver comprado joias nas ´ultimas 24 horas, qual a probabilidade de existir fraude?

• Se o dono do cart˜ao tiver comprado gasolina E joias nas ´ultimas 24 horas, qual a probabilidade de existir fraude?

• Se o dono do cart˜ao tiver comprado joias nas ´ultimas 24 horas, qual a probabilidade dele ser do sexo feminino e com menos de 30 anos?

Korb e Nicholson (2010) definem esse racioc´ınio pelo nome de diagnóstico, ou seja, a probabilidade resultante é calculada a partir das evidências na dire¸cão oposta aos arcos da rede. No caso contrário, quando a probabilidade resultante é calculada no sentido dos arcos, o racioc´ınio é do tipo preditivo. É poss´ıvel ainda unir ambos os ra-cioc´ınios através dos tipos: intercausal ou combinado. A Figura 2 sintetiza essa defini¸cão.

Além da rela¸cão entre as variáveis a RB define qual é a “for¸ca” da mesma, ou seja, qual é a distribui¸cão de probabilidade condicional associada à cada nodo. Por exemplo, para a variável Joalheria as suas probabilidades condicionais são:

(38)

36 Fraude Gasolina Joalheria Idade Sexo Evidência S a íd a ( Q u e ry

) Saída (Query) Saída (Query)

Fraude

Gasolina Joalheria

Idade Sexo Fraude

Gasolina Joalheria Idade Sexo Exemplo Ev id ên ci a Evidência Evidência Ev id ên ci a

Saída (Query) Saída (Query)

DIAGNÓSTICO PREDITIVO INTERCAUSAL COMBINADO Fraude Gasolina Joalheria Idade Sexo Ev id ên ci a

Saída (Query) Saída (Query)

Saída (Query)

Figura 2: Tipos de Racioc´ınio Bayesiano. Fonte: Korb e Nicholson (2010).

p(j = yes|f = yes, i =∗

, s =∗

) = 0.05

p(j = yes|f = no, i =< 30, s = masculino) => 0.0001 p(j = yes|f = no, i = 30 − 50, s = masculino) = 0.0004

p(j = yes|f = no, i => 50, s = masculino) = 0.0002 p(j = yes|f = no, i =< 30, s = f eminino) => 0.0005 p(j = yes|f = no, i = 30 − 50, s = f eminino) = 0.002 p(j = yes|f = no, i => 50, s = f eminino) = 0.001

Vetores de probabilidade condicional s˜ao usualmente expressos por tabelas. Por exemplo, a Tabela 1 representa as probabilidades condicionais dessa vari´avel.

O processo de racioc´ınio na rede é chamado de inferência, sendo abordado nas Se¸cões 2.1.1 e 2.1.2.

(39)

37

Tabela 1: Probabilidades Condicionais (CPT) para a vari´avel Joalheria. Fonte: Korb e Nicholson (2010).

Idade Sexo Fraude Joalheria

sim não idade < 30 feminino sim 0.05 0.95 não 0.0005 0.9995 masculino sim 0.05 0.95 não 0.0001 0.9999 30≤ idade ≤ 50 feminino sim 0.05 0.95 não 0.002 0.998 masculino sim 0.05 0.95 não 0.0004 0.9996 idade > 50 feminino sim 0.05 0.95 não 0.001 0.999 masculino sim 0.05 0.95 não 0.002 0.998 Nessa

tabela não há distin¸cão de sexo quando F raude = sim.

2.1.1 Defini¸c˜ao Formal

Definindo formalmente2_{, uma RB possui uma estrutura gr´afica}

S∗

que representa rela¸c˜oes causais entre as vari´aveis X = X1, . . . , Xn

e um conjunto de distribui¸cões de probabilidade P associado a cada uma delas. A estrutura da rede é um grafo direcionado ac´ıclico (DAG) e cada nodo da rede representa uma variável do dom´ınio (denotado aqui por Xi). O conjunto de pais de Xi em S∗ é chamado de P ai.

Uma vari´avel ´e considerada “pai” de outra se houver um arco indo da primeira para a segunda (Figura 3).

Uma RB é comumente parametrizada através de um conjunto de tabelas de probabilidade condicional (CPT). Cada CPT está ligada `

a Xi e cada linha da tabela representa uma instˆancia de P ai.

Formal-mente, s˜ao definidos xk

i para k = 1,· · · , ri como os poss´ıveis valores

assumidos por Xi e paji para j = 1,· · · , qi como os poss´ıveis valores

assumidos por P ai. ´E importante ressaltar que paji representa uma

instˆancia poss´ıvel de um conjunto de vari´aveis “pais” de Xi.

2_{As nota¸c˜}_{oes utilizadas nesta tese seguem o padr˜}_{ao de Bauer, Koller e Singer}

(40)

38 A (saída) B (entrada) (entrada)C P(A=0) = 0.3 P(A=1) = 0.7 P(B=0|A=0) = 0.7 P(B=0|A=1) = 0.1 P(B=1|A=0) = 0.3 P(B=1|A=1) = 0.9 P(C=0|A=0) = 0.4 P(C=0|A=1) = 0.7 P(C=1|A=0) = 0.6 P(C=1|A=1) = 0.3 θijk θij CPT|Conﬁguração de pais: CPT - Nodo:θi θijk Entradas CPT:

Figura 3: Exemplo - Representa¸c˜ao de uma Rede Bayesiana. Fonte: a autora.

´

E definido ainda, θijk como o parˆametro que representa uma

entrada na CPT para P (Xi = xki|P ai = paji) e θ como o conjunto de

todas as instˆancias de θijk.

Uma RB deve satisfazer a Condi¸c˜ao Local de Markov3_{e ´e}

consi-derada uma liga¸c˜ao nula (ou inexistente) entre dois nodos em S∗

como uma representa¸cão de independência condicional. Portanto, a dis-tribui¸cão conjunta de probabilidade em X é dada por:

P (X1, X2, . . . , Xn) = n

Y

i=1

p(Xi|P ai) (2.5)

2.1.2 Inferˆencia em Redes Bayesianas

O processo de inferˆencia ocorre ao determinar as probabilidades de interesse do modelo considerando a estrutura gr´afica S∗_{de uma RB.}

Esse processo é realizado através de um conjunto de cálculos conhecido como inferência probabil´ıstica e é feito pelo Teorema de Bayes:

3_Condi¸c˜_{ao Local de Markov: uma vari´}_{avel X}

i´e condicionalmente independente

(41)

(42)

40

a inferência depende do modelo a ser representado e nem sempre é exata (LANGSETH et al., 2009). Redes com esse tipo de comportamento são chamadas de Redes Bayesianas H´ıbridas (RBH) e métodos de inferência aproximada são geralmente utilizados.

Os métodos mais populares são: Discretiza¸cão, Combina¸cão de exponenciais truncadas e ainda uma abordagem utilizando Cadeia de Markov.

2.1.2.1 Discretiza¸c˜ao

A técnica mais comum para lidar com a inferência em Redes Bayesianas H´ıbridas é a discretiza¸cão. Considere que uma variável bXi

seja cont´ınua e assuma um valor bxi. A t´ecnica de discretiza¸c˜ao consiste

em trocar o valor cont´ınuo bxi por seu valor discreto equivalente xki.

Entre os algoritmos de discretiza¸cão, os métodos EWD e EFD são amplamente utilizados por sua baixa complexidade computacional e facilidade de implementa¸cão, além de sua boa performance (HSU; HUANG; WONG, 2003).

O m´etodo EWD possui complexidade linear em um vetor orde-nado. Ele divide uma vari´avel em intervalos de igual largura definindo os pontos de corte de forma que exista z intervalos com tamanhos de:

w = max bXi− min bXi

z (2.7)

O método EFD também possui complexidade O(n) em um vetor ordenado, porém divide uma variável em tamanhos de igual frequência. Ou seja, os pontos de corte são definidos de forma que cada classe possua aproximadamente o mesmo número de registros.

Um importante aspecto quanto as RB está na sua propriedade de inferência: a distribui¸cão de probabilidade de uma variável influ-encia diretamente a outra (Equa¸cão 2.5). A discretiza¸cão de todas as variáveis ao mesmo tempo por uma otimiza¸cão global considera esse as-pecto da rede. Com isso, diminui-se o erro na RB e, por consequência, aumenta a sua acurácia.

Entre as técnicas que propõem uma otimiza¸cão global podemos citar o método de discretiza¸cão Pico e Vale (DPV) (LIMA, 2014), pro-posta em Disserta¸cão de Mestrado, que é utilizado neste trabalho.

Neste m´etodo assume-se que bXi possui valores em intervalos

ex-tremos e em um intervalo intermediário. Ao analisar o intervalo in-termediário é poss´ıvel obter os intervalos de valores extremos (valores

(43)

41

acima e valores abaixo dos limites do intervalo intermedi´ario) e esta-belecer suas probabilidades condicionais, assim como suas rela¸c˜oes de causa e efeito: “O que causou esse comportamento? O que ele im-plica?”.

Observando o comportamento de uma vari´avel, ´e poss´ıvel inferir se um valor bxk

i est´a fora do intervalo intermedi´ario, seja de forma

po-sitiva (alta) ou negativa (baixa). A delimita¸c˜ao dos intervalos utiliza dois pontos de corte expressos em percentil: o primeiro (pico) ´e restrito `

a ´area considerada “alta” e o segundo (vale) cobre a ´area considerada “baixa”.

O uso do percentil como medida para os pontos de corte incor-pora o conceito de frequência dos dados (seguindo a linha do EFD). Porém, o método DPV não segue uma regra pré-definida de cortes, ou seja, a quantidade de dados em cada classe é descoberta em tempo de processamento. Além disso, ao utilizar a medida de percentil é poss´ıvel restringir a área de cobertura de cada um dos cortes, definindo seus limites de atua¸cão.

O uso dos dois pontos de corte sugere que uma variável numérica possui três comportamentos distintos: “baixo”, “médio” e “alto”. En-tretanto, essa premissa nem sempre é verdadeira e a utiliza¸cão desses três comportamentos pode não trazer benef´ıcios para a cria¸cão de uma RB. Isso acontece quando os pontos de corte estão muito próximos dos valores limites, por exemplo, o corte de vale está muito próximo do menor percentil da variável ou o corte de pico está muito próximo do maior percentil. É poss´ıvel ainda que os dois cortes estejam tão perto um do outro que um intervalo intermediário é considerado irrelevante. O ponto fundamental para estabelecer os percentis dos cortes está no algoritmo de busca, nesse caso, o Algoritmo Genético. Cada variável numérica bXi do conjunto de dados terá seus dois pontos de

corte. Esses pontos serão encontrados através da busca pelo AG e será escolhido o conjunto mais “bem adaptado” à fun¸cão objetivo no que diz respeito à RB. O conjunto de pontos, que representa um indiv´ıduo, pode ser visto na Figura 5.

A Figura 6 mostra a vis˜ao geral do m´etodo proposto. ´

E importante ressaltar que o método DPV é de discretiza¸cão visando a descoberta de conhecimento na RB, ou seja, o conjunto de variáveis discretizadas deve refor¸car o processo de aprendizagem. Dessa forma, a distribui¸cão de probabilidade dentro de cada nodo da RB não necessariamente será simétrica.

A escolha do melhor indiv´ıduo no AG est´a diretamente associada ao mecanismo de classifica¸c˜ao na Rede Bayesiana. Cada nodo em uma

(44)

42

Figura 5: Representa¸c˜ao de um indiv´ıduo no DPV. Fonte: Lima (2014).

Figura 6: Fluxograma do m´etodo DPV. Fonte: Lima (2014).

RB é expresso por um vetor probabilidades, sendo que cada um de seus estados tem uma probabilidade de ser “verdadeiro”. Neste trabalho foi adotado o método de classifica¸cão que escolhe o maior valor no vetor de probabilidades do nodo de sa´ıda para classificar a instância.

Existem duas situa¸cões poss´ıveis para se estabelecer o fitness de um indiv´ıduo durante a execu¸cão do DPV: quando a variável de sa´ıda é qualitativa e quando a variável de sa´ıda é quantitativa.

Quando a variável de sa´ıda é qualitativa, um maior desempenho da rede está diretamente ligado à classifica¸cão correta dos dados. Por-tanto, a medida de desempenho nesses casos é a própria acurácia e o objetivo do algoritmo é a sua maximiza¸cão.

Entretanto, quando a variável de sa´ıda é quantitativa, objetiva-se estimar valores através do objetiva-seu vetor de probabilidade. Esobjetiva-ses valores

(45)

43

correspondem aos valores médios da distribui¸cão e o desempenho da rede está ligado à minimiza¸cão da taxa de erro entre os valores esti-mados e os valores numéricos da variável de sa´ıda.

2.2 APRENDIZAGEM EM REDES BAYESIANAS

Existem trˆes formas de realizar a aprendizagem em RB: exclu-sivamente dos dados (base de dados), excluexclu-sivamente dos especialistas do dom´ınio ou aprender de forma h´ıbrida tanto dos dados quanto dos especialistas.

A Aprendizagem de Estrutura tem como objetivo identificar as independências condicionais entre as variáveis do dom´ınio. Já a Apren-dizagem de Parâmetros objetiva o preenchimento das CPT em uma RB, ou seja, estabelecer as probabilidades condicionais entre as variáveis em uma determinada topologia.

Nesta tese delimitaremos o campo de pesquisa para a Aprendi-zagem de Parâmetros (Se¸cão 2.2.1) que está relacionada a estima¸cão das tabelas de probabilidade condicional (CPT) e é divida em duas abordagens: generativa e discriminativa.

A aprendizagem generativa possui um comportamento mais di-reto: as probabilidades condicionais são computadas diretamente dos dados. Já a abordagem discriminativa realiza a aprendizagem conside-rando a probabilidade condicional das variáveis de forma a proporcionar o aumento da acurácia na RB (SU et al., 2008).

2.2.1 Aprendizagem de Parˆametros

A Aprendizagem de Parˆametros est´a relacionada ao preenchi-mento das CPT em uma estrutura fixa S∗_{. Ou seja, assume-se que}

h´a uma distribui¸c˜ao conjunta de probabilidade P (·) que representa um dom´ınio.

2.2.1.1 Aprendizagem Generativa de Parˆametros

A Aprendizagem Generativa é feita a partir do conjunto do da-dos, buscando a maximiza¸cão da verossimilhan¸ca (ZHOU, 2015) e é conhecida como MLE (maximum likelihood estimation) (FRIEDMAN; GEIGER; GOLDSZMIDT, 1997). A estimativa do MLE para cada CPT após T amostras, sem dados missing, é dada pela fórmula:

(46)

44 θTijk= NT ijk NT ij (2.8) onde NT

ijk ´e o n´umero de vezes que foram observados os dados na

con-figura¸c˜ao xk

i para o conjunto de pais pa j

i e NijT a quantidade total.

2.2.1.1.1 Aprendizagem de Parˆametros em Dados Missing

Os dados missing (missing) podem ser divididos em trˆes catego-rias (RUBIN, 1976):

• Dado missing completamente aleat´orio (MCAR - missing com-pletely at random)

• Dado missing aleat´orio (MAR - missing at random)

• Dado missing não aleatório - (NMAR - missing not at random) Dados missing do tipo MCAR são aqueles que possuem o maior grau de aleatoriedade e ocorrem quando a probabilidade de encontrar um valor missing é a mesma para todas as variáveis em qualquer con-junto de dados. Por exemplo: em uma rede de sensores alguns, de forma aleatória, deixam de capturar dados em determinados momentos.

Dados do tipo MAR ocorrem quando uma vari´avel Xj do

con-junto de dados influencia a existˆencia de dados missing em uma vari´avel diferente Xi. Por exemplo, imagine uma rede de sensores de seguran¸ca

que capturam a temperatura e a existência de movimento em um deter-minado ambiente. Imagine ainda que alguns sensores de movimento em possuam um hardware sens´ıvel à temperatura ambiental: em caso de temperaturas altas eles nem sempre conseguem capturar a existência de movimento. Nesse caso uma variável diferente daquela observada muda a probabilidade de dados missing acontecerem.

São considerados como NMAR quando os dados missing estão relacionados à eventos não observados ou ainda do próprio atributo. Por exemplo, se a temperatura ambiental influenciar na habilidade dos sensores em capturar os dados da própria temperatura ou ainda se o fator que influencia a ocorrência de dados missing for desconhecido.

As formas de se tratar dados missing e, consequentemente, a Aprendizagem de Parˆametros podem ser resumidas em trˆes diferentes abordagens:

(47)

45

• Ignorar/descartar os dados: é a maneira mais simples de se lidar com dados do tipo missing - remove os dados missing ou ainda uma variável do conjunto de dados. Ela nem sempre é viável e pode gerar grandes distor¸cões nos dados, sendo apenas recomen-dada em casos de MCAR.

• Imputa¸cão: técnica que substitui os valores missing por valores estimados. A estimativa pode ser por medidas estat´ısticas obtidas pelos dados ou ainda por alguma outra técnica de Inteligência Artificial (IA) Um bom resumo do assunto é encontrado em Silva (2010).

• Estimativa de parâmetros: métodos que utilizam a verossimi-lhan¸ca na estimativa. Geralmente são utilizadas duas técnicas: EM (Expectation Maximization) ou otimiza¸cão da verossimi-lhan¸ca com um método do tipo gradiente e são conhecidas por es-timar consistentemente dados do tipo MAR (BROECK et al., 2014).

´

E importante notar que uma variável com dados missing não é uma variável do tipo hidden (escondida) - portanto há dados da variável, mas não em todos os casos.

O Algoritmo EM (DEMPSTER; LAIRD; RUBIN, 1977) possibilita a estima¸cão de parâmetros em modelos com dados missing, sendo o algoritmo mais utilizado (ZHOU, 2015). Esse algoritmo utiliza uma repeti¸cão que alterna em dois passos (Etapa E e Etapa M ) até atingir a convergência.

Em um dado registro de dados (linha) yl´e poss´ıvel ter dados

mis-sing (Zl ={zl1,· · · , zlo}) e vari´aveis observadas (Γl ={γl1,· · · , γlh})

onde o + h = n. As etapas para convergˆencia s˜ao dadas por:

• Etapa E (etapa de expectativa): a partir da configura¸cão de parâmetros atual (θ(t)_{), onde a primeira intera¸cão é dada por}

θ(0) _{e tem a configura¸c˜ao inicial dada por valores randˆ}_{omicos. A}

expectativa é calculada através da fun¸cão de máxima verossimi-lhan¸ca considerando o conjunto de dados D:

l(θ|θ(t)) =X l X γl1,··· ,γlh p(γl1,· · · , γlh|Zl, θ(t)) log p(Zl,γl1,··· ,γlh|θ (t)₎ (2.9) • Etapa M (etapa de maximiza¸c˜ao): calcula a nova estimativa de

(48)

46

O Algoritmo 1 descreve a abordagem computacional dessa abor-dagem.

Algoritmo 1 Expectation Maximization (EM) 1: θ← valores aleat´orios

2: enquanto n˜ao convergir fa¸ca

3: Etapa E: utilize γlpara calcular l(θ|θ(t))

4: Etapa M: substitua θ pela maximiza¸c˜ao da Etapa E 5: fim enquanto

devolve θ

Algumas varia¸cões do método foram propostas na literatura como por exemplo o EM(η) (BAUER; KOLLER; SINGER, 1997). Esse algoritmo define o conceito de taxa de aprendizagem no algoritmo EM e as regras de atualiza¸cão considerando uma Rede Bayesiana. O método Voting EM (COHEN; BRONSTEIN; COZMAN, 2001b) (COHEN; BRONSTEIN; COZ-MAN, 2001a) é uma versão online do EM(η).

Outra abordagem bastante utilizada para aprendizagem em da-dos missing é através de métoda-dos gradientes, que são uma alternativa de aprendizagem nos casos em que a RB possui variáveis cont´ınuas (BINDER et al., 1997) (BUNTINE, 1994).

Outras formas de aprendizagem em dados missing foram de-senvolvidas na literatura seja utilizando métodos do tipo Monte Carlo ou ainda por aproxima¸cão Gaussiana (BARBER, 2012). Além disso há abordagens mistas, como a de Broeck et al. (2014) que propõe uma método de aprendizagem com foco em dados do tipo MCAR e MAR através de uma RB que representa a rela¸cão entre as variáveis missing (MOHAN; PEARL; TIAN, 2013).

Nesta tese é utilizada uma versão modificada do método EM e herda suas propriedades de tratamento de dados missing. Entretanto, essa é uma propriedade secundária do método e não foi testada expe-rimentalmente.

2.2.1.2 Aprendizagem Discriminativa de Parˆametros

A Aprendizagem Discriminativa é caracterizada quando a ob-jetivo principal é o aumento da acurácia dentro da RB. Entretanto, a aprendizagem discriminativa possui uma complexidade computaci-onal maior que a generativa e é considerado um problema NP-hard (GREINER; ZHOU, 2002). Nesse tipo de aprendizagem o objetivo é

(49)

en-47

contrar parˆametros que maximizem a log verossimilhan¸ca condicional ao contr´ario de simplesmente maximizar a verossimilhan¸ca.

Outro método relacionado ao método EM é o EM-like proposto por Salojärvi, Puolamäki e Kaski (2005). O método é uma versão discriminativa do método EM e objetiva a maximiza¸cão das probabili-dades condicionais e não da verossimilhan¸ca como acontece no método EM clássico.

O artigo pioneiro na abordagem discriminativa foi o ELR (Ex-tension to Logistic Regression) proposto por Greiner e Zhou (2002) onde as CPT s˜ao estimadas por um processo que utiliza o gradiente descendente como forma de maximizar a probabilidade condicional. Os autores mostram que a aprendizagem discriminativa requer me-nos instˆancias de treinamento que a generativa para convergir e que geralmente leva a um classificador mais eficiente. Entretanto, o custo computacional pode ser significativamente maior.

Entre as pesquisas nessa ´area, ´e poss´ıvel citar aqueles com abor-dagem exclusivamente discriminativas (GREINER; ZHOU, 2002), ( GREI-NER; ZHOU, 2002), (PERNKOPF; WOHLMAYR, 2009), (PERNKOPF; BIL-MES, 2005), (ZHANG; SU, 2008), (CARVALHO et al., 2011), (FEELDERS; IVANOVS, 2006), (SU et al., 2008). Ou abordagens h´ıbridas entre os al-goritmos discriminativos e os generativos como em Raina et al. (2003), Xue e Titterington (2010), Kang e Tian (2006) e Zaidi et al. (2017).

Raina et al. (2003) propõem um método h´ıbrido entre a abor-dagem generativa e discriminativa. O método divide as variáveis em dois grupos: discriminativo e generativo. Portanto, se uma variável possui influência direta na classifica¸cão ela é aprendida de forma dis-criminativa e, caso contrário, de forma generativa. O método obteve uma alta taxa de acurácia e um erro baixo quando comparado quando comparado ao ELR.

Kang e Tian (2006) propõem o método HBayes-NB que é uma abordagem h´ıbrida para a aprendizagem de parâmetros e de estrutura. O HBayes-NB realiza o relaxamento da topologia na¨ıve bayes por meio da cria¸cão de arcos adicionais no grafo. As variáveis são separadas em dois conjuntos: discriminativo e generativo. A aprendizagem discrimi-nativa é feita pelo método ELR e a generativa pelo MLE. O método obteve bons resultados quando testado em bases de dados públicas e comparado com métodos estado da arte em problemas de classifica¸cão. Liu e Liao (2008a) propõem um método de aprendizagem online feito pela combina¸cão do método MLE e do método Voting EM. O método proposto pelos autores altera a taxa de aprendizagem do Voting EM proporcionalmente ao tempo de chegada dos dados de forma similar

(50)

48

ao método MLE. A abordagem obteve resultados similares ao Voting EM porém se mostrou menos sens´ıvel à configura¸cão de parâmetros.

Su et al. (2008) propõem o método DFE (Discriminative Fre-quence Estimate) que aprende parâmetros de forma discriminativa con-siderando a frequência dos dados. O DFE é uma varia¸cão do método MLE e utiliza o erro (loss) como uma penalidade na aprendizagem. O método foi comparado com o MLE, ELR e com um método de en-semble em diversas bases de dados públicas do repositório da UCI. O DFE obteve bons resultados e os autores concluem que o método é computacionalmente eficiente, converge rapidamente e possui resulta-dos similares aos métoresulta-dos estado da arte.

Pernkopf e Wohlmayr (2009) propõem três métodos discrimina-tivos de aprendizagem de parâmetros. O primeiro é uma extensão para RB do algoritmo Baum-Welch (BRIDLE, 1990). Os outros dois métodos são baseados no EM-like (SALOJ ÄRVI; PUOLAM ÄKI; KASKI, 2005): ECL (Método de verossimilhan¸ca condicional exato) e ACL (Método de ve-rossimilhan¸ca condicional aproximado). Os métodos foram testados em bases de dados públicas e comparados com o método MLE, obtendo re-sultados superiores em problemas de classifica¸cão.

Xue e Titterington (2010) propõem o método JoDiG (Joint Dis-criminative Generative Modelling). O método realiza a aprendizagem de parâmetros dividindo as variáveis em dois conjuntos: discriminativo e generativo. Uma variável é tratada de forma discriminativa se não for encontrado um processo ou uma fun¸cão que origine os dados, ou seja, se ela não tiver uma boa aderência à alguma fun¸cão de distribui¸cão de probabilidade. O método foi testado em bases de dados públicas do repositório da UCI e obteve resultados similares ou melhores que outros métodos apenas discriminativos ou generativos.

Jing, Jing-qi e Wei (2011) propõem um método de aprendizagem de parâmetros baseado na teoria de controle interativo de aprendiza-gem. O algoritmo proposto fornece um sistema dinâmico e regras para a atualiza¸cão das CPT. Os autores analisaram a convergência do al-goritmo e conclu´ıram que as probabilidades condicionais alcan¸cadas refletiam com exatidão àquelas desejadas. Além disso, a taxa de con-vergência foi melhorada de forma significativa quando comparado com outros algoritmos de aprendizagem na literatura.

Carvalho et al. (2011) propõem uma métrica de score baseada em dados e sem a utiliza¸cão de parâmetros através da fatoriza¸cão da log-verossimilhan¸ca condicional (CLL). A técnica é utilizada tanto para a aprendizagem de estrutura quanto para a aprendizagem de parâmetros, tendo como objetivo aumentar a classifica¸cão na RB. Os autores

(51)

ob-49

tiveram bons resultados ao comparar o método proposto com outros classificadores em bases de dados públicas. Além disso, os autores conclu´ıram que o tempo computacional da técnica é significantemente menor.

Broeck et al. (2014) propõem uma nova fam´ılia de algoritmos para a aprendizagem de parâmetros em dados missing. As principais caracter´ısticas são: os parâmetros são computados de forma não in-terativa, as estimativas são obtidas sem a necessidade da inferência bayesiana e a estima¸cão de parâmetros é consistente para grandes ba-ses de dados. Os autores concluem que os algoritmos são mais rápidos que o EM tradicional e evita m´ınimos locais.

Zaidi et al. (2017) propõem um método discriminativo de apren-dizado de parâmetros para RB através da combina¸cão de um método de aprendizagem generativa e um método de estima¸cão de parâmetros (usando a aprendizagem generativa como pré-condi¸cão da busca de parâmetros na aprendizagem discriminativa). Embora o método te-nha natureza discriminativa, ele estima as probabilidades utilizando os valores encontrados na aprendizagem generativa para agilizar o pro-cesso. Os autores fizeram experimentos em 72 conjuntos de dados e demonstraram que o novo método é uma alternativa eficiente à outros métodos de parametriza¸cão da literatura.

2.2.2 Aprendizagem Online de Parˆametros

Dentro da Aprendizagem de Máquina chamamos de Métodos Aprendizagem Online aqueles que aprendem a partir de um conjunto de dados dispon´ıvel de forma sequencial ou interativa. É um tipo de aprendizagem adaptativa e considera que o dom´ınio muda com o tempo - o oposto da Aprendizagem por pacote ou batch, em que todos os dados estão dispon´ıveis no momento do treinamento.

Alguns dos algoritmos mais utilizados no contexto das RB utili-zam a aprendizagem generativa, como em Cohen, Bronstein e Cozman (2001b) que propõe o método Voting EM baseado nas regras definidas por (BAUER; KOLLER; SINGER, 1997) utilizando conceitos de máxima verossimilhan¸ca. As principais caracter´ısticas do Voting EM são:

• adapta¸cão à mudan¸cas na distribui¸cão dos dados;

• habilidade de escapar dos m´aximos locais na fun¸c˜ao de verossi-milhan¸ca;

(52)

50

• adapta¸cão mais rápida quando há mudan¸cas na distribui¸cão dos dados que o MLE.

2.2.2.1 EM(η) - Expectation Maximization

Bauer, Koller e Singer (1997) definem as regras de atualiza¸cão de parâmetros em Redes Bayesianas. Para isso, considere um conjunto de dados qualquer D ={y1,· · · , yN} e o conjunto atual de parâmetros

θ, (CPT), que definem a rede.

A atualiza¸cão dos parâmetros da rede é feita através da maxi-miza¸cão:

e

θ = arg maxθ[F (θ)]

= arg maxθ[ηLD(θ)− d(θ, θ)]

(2.10)

onde LD(θ) ´e a log-verossimilhan¸ca normalizada dos dados

conside-rando a rede, d(θ, θ) é a distância entre os dois modelos e η, 0 < η≤ 1 é a taxa de aprendizagem.

Cohen, Bronstein e Cozman (2001b) utilizam a distância qui-quadrado em d(θ, θ) através de uma aproxima¸cão de Taylor de primeira ordem para F e resolvendo a maximiza¸cão considerando queP_kθijk=

1, a solu¸c˜ao aproximada ´e obtida:

e θijk = θijk+ η E_θ[xk i, pa j i|D] b P (paj_i) − E_θ[paj_i|D] b P (paj_i) · θijk ! (2.11) onde E_θ[zik, pa j i|D] = 1 N N X l=1 P (xki, pa j i|yl, θ) (2.12)

e bP (paj_i) ´e uma estimativa de Peθ(P ai= pa j i) dada por: b P (paj_i) = E_θ[paj_i|D] = 1 N N X l=1 P (paj_i|yl, θ) (2.13)

(53)

51

Essa regra de atualiza¸c˜ao ´e chamada de EM (η) , sendo poss´ıvel dividir o algoritmo em duas etapas:

• Etapa E (expectation): Cria uma fun¸cão para a log-verossimilhan¸ca esperada usando a expectativa atual para os parâmetros através da Equa¸cão 2.12.

• Etapa M (maximization): Calcula os parâmetros maximizando a log-verossimilhan¸ca esperada encontrada na Etapa E através da Equa¸cão 2.11.

A taxa de aprendizagem η é utilizada como uma medida do quanto o passado é confiável considerando novos dados. Quanto mais próximo de zero menor a influencia dos dados novos na rede.

2.2.2.1.1 Voting EM

O Algoritmo Voting EM (COHEN; BRONSTEIN; COZMAN, 2001b) é uma adapta¸cão direta do EM(η) para ser utilizado de forma online. A regra de atualiza¸cão é dada por:

θt ijk=    θt−1_ijk + ηP (xk i|yt)− θt−1ijk se P (paj_i|yt, θt−1)6= 0

θ_ijkt−1 caso contr´ario

(2.14) sendo P (xk i|yt) = P (xk i, pa j i|yt, θt−1) P (paji|yt, θt−1) (2.15) onde T = {0, · · · , t − 1, t, t + 1, · · · } representa a unidade temporal atual e θ0

ijk(a CPT inicial) ´e preenchida por valores randˆomicos ou por

valores pr´e treinados.

A taxa de atualiza¸cão η mostra o quanto o passado é confiável considerando os dados presentes. Quando η se aproxima de 1 os dados atuais são considerados mais confiáveis e o conhecimento do passado é eliminado. A taxa pode ser tanto fixa quanto adaptativa (Se¸cão 2.2.2.1.3).

(54)

52

Algoritmo 2 Voting EM

1: θ0_{← valores aleat´orios ou pr´e treinados}

2: η← ? | 0 < η ≤ 1 (definido pelo usu´ario) 3: t← 0

4: enquanto houver amostras fa¸ca 5: para cada Xi em X fa¸ca

6: obtenha o conjunto P ai

7: para cada paj_i em P ai fa¸ca

8: para cada xk

i em Xi fa¸ca

9: atualize θ_ijkt+1 pela Equa¸c˜ao 2.14

10: fim para 11: fim para 12: fim para 13: t← t + 1 14: fim enquanto 2.2.2.1.2 Convergˆencia no Voting EM

Para o estudo da convergˆencia do algoritmo (COHEN; BRONS-TEIN; COZMAN, 2001a), considere as seguintes afirma¸c˜oes:

• Nos casos em que D n˜ao possui dados missing os pais da vari´avel xk

i s˜ao sempre observ´aveis e portanto P (pa j

i|yt, θt) = 1.

• A Equa¸c˜ao 2.14, nesses casos, pode ser reescrita por:

θt

ijk = (1− η)θ t−1

ijk + η∗ It (2.16)

onde It´e um processo Bernoulli igualmente distribu´ıdo dado por:

It=

1 com probabilidade θijk = c∗

0 com probabilidade 1− c∗ (2.17)

sendo c∗ _{= P (X}

i= xki|P ai= paji) o valor verdadeiro da entrada

na CPT.

Com as afirma¸c˜oes acima s˜ao obtidas as seguintes propriedades: Teorema 1 Em uma RB com estrutura fixa S∗_{, sem dados missing}

em D e com 0 < η≤ 1 utilizando Equa¸c˜ao 2.14, algumas propriedades s˜ao obtidas:

(55)

53

1. θt

ijk ´e uma estimativa consistente de c

∗_{, e a seguinte equa¸c˜}_{ao ´e}

obtida através da solu¸cão de recorrência:

E[θt ijk] = (1− η)tθ0ijk+ (1− (1 − η)t)· c ∗ ⇒ lim t→∞E[θ t ijk] = c ∗ (2.18) 2. A variˆancia da estimativa de θt

ijk ´e finita e portanto:

V ar[θtijk] = η· c∗ (1− c∗ ) 2− η · (1 − (1 − η) 2t+2₎ _(2.19) lim t→∞V ar[θ t ijk] = η 2− η · c ∗ (1− c∗ ) (2.20)

3. Para t → ∞, a seguinte inequa¸c˜ao se mantem: P (|θt

ijk− c

∗_{| ≥}

qσ])≤ 1

q2, onde q≥ 0, onde σ é o desvio-padrão é calculado por q

V arθt ijk

A prova do Teorema 1, assim como sua generaliza¸cão para quando D possui dados falantes é encontrada em Cohen, Bronstein e Cozman (2001b) e implica em algumas afirma¸cões:

• Quanto maior a taxa η maior a V arθt

ijk e portanto os valores da

s´erie s˜ao mais ruidosos;

• Quanto menor o valor de η mais lenta ´e a convergˆencia de θt ijk.

2.2.2.1.3 Voting EM - Adaptativo

Um dos pontos cr´ıticos do Voting EM é a determina¸cão da taxa de aprendizagem η, pois a escolha do parâmetro varia de acordo com o dom´ınio de aplica¸cão. Além disso, pode acontecer de um caso espe-cifico xk

i com configura¸c˜ao de pais pa j

i ser muito contante ou aparecer

raramente na base de dados. Com um η fixo a influência dos dados nas CPT é sempre a mesma para todas as variáveis o que torna o algoritmo pouco genérico (LIU; LIAO, 2008a).

(56)

54

Como forma de lidar com o problema Cohen, Bronstein e Coz-man (2001a) prop˜oe o Voting EM - Adaptativo. Ele ´e baseado nos seguintes princ´ıpios, de acordo com o Teorema 1:

• A taxa de aprendizagem η deve ser reduzida quando se aproxima da convergˆencia;

• η deve ser aumentado quando h´a um erro grande entre os valores m´edios de θijk e θtijk;

• Um valor η ´e definido para cada paji sendo denominado ηij.

O método é baseado no Algoritmo 2, porém o valor de ηij é

atualizado em cada intera¸c˜ao de tempo a partir do Teorema 1. Ele ´e descrito pelo Algoritmo 3 - sugere-se colocar um valor alto de ηij inicial

quando o dom´ınio ´e desconhecido e valores pequenos quando se trata de uma RB pr´e treinada.

O método utiliza três parâmetros como entrada:

• q: parâmetro que define quantos desvios padrões de erro é aceitável antes de se aumentar ηij;

• α: parâmetro que define o que é considerado convergência para diminuir o ηij;

• m: parâmetro que define em qual propor¸cão ηij será aumentado

ou diminu´ıdo.

A variância no método é calculada a partir da Equa¸cão 2.19, substituindo t por δt e c∗_{por 0.5:}

V ar[θtijk] =

ηij· 0.5(1 − 0.5)

2− ηij

· (1 − (1 − ηij)2δt+2) (2.21)

Cohen, Bronstein e Cozman (2001a) provam que ηij decresce de

forma proporcional à (1/tn) onde tné o número de vezes que P ai= paji,

o que leva à uma convergência assintótica ótima em algum máximo local.

2.2.2.2 MLE Online

O algoritmo MLE Online é uma adapta¸cão do MLE convencional (Se¸cão 2.2.1.1) para uma forma interativa de forma que T mude seu

(57)

55

Algoritmo 3 Voting EM Adaptativo 1: θ0_{← valores aleat´orios ou pr´e treinados}

2: ηij ← η′ | 0 < η′≤ 1 (definidos aleatoriamente)

3: q← ? |q > 0 (definido pelo usuário) 4: α← ? |α << 1 (definido pelo usuário) 5: m← ? |m > 1 (definido pelo usuário) 6: t← 0

7: δt← 0

12: para cada xk_i em Xi fa¸ca

13: atualize θt+1_ijk pela Equa¸c˜ao 2.14

14: fim para 15: se|θt+1ijk − E[θ t+1 ijk]| > q · σ t+1 ij então 16: aumente ηij: ηij← ηij· m 17: δt← 0 18: senão 19: se então(1− ηij)≥ α 20: diminua ηij: ηij← ηij· m−1 21: δt← 0 22: senão 23: δt← δt + 1 24: fim se 25: fim se 26: fim para 27: fim para 28: t← t + 1 29: fim enquanto

tamanho a cada intera¸cão. Ou seja, a cada nova amostra o valor de T (tempo) é acrescido de uma unidade e a convergência do método utiliza esse valor para determinar o quanto uma nova amostra influencia na CPT (taxa de aprendizagem).

´

E importante notar que esse algoritmo, assim como sua vers˜ao em batch, n˜ao possui suporte para dados missing.

Essa adapta¸c˜ao foi feita por Cohen, Bronstein e Cozman (2001b) e utiliza a seguinte regra de atualiza¸c˜ao:

(58)

56 θt ijk=              1 Nt ij + (1− 1 Nt ij)θ t−1

ijk , para P (pa j i|yt) = 1 e P (xki|yt) = 1 (1− 1 Nt ij)θ t−1

ijk , para P (pa j

i|yt) = 1 e P (xki|yt) = 0

θt−1_ijk , caso contr´ario

(2.22) onde 1

Nt

ij possui fun¸c˜ao similar ao η e diminui de forma progressiva de acordo com a quantidade de dados. Essa abordagem ´e descrita pelo Algoritmo 4.

Algoritmo 4 MLE Online

1: θ0← valores aleat´orios ou pr´e treinados 2: t← 1

7: para cada xk

i em Xi fa¸ca

8: atualize θt

ijk pela Equa¸c˜ao 2.22

9: fim para

10: fim para

11: fim para 12: t← t + 1 13: fim enquanto

O método MLE Online não necessita de parametriza¸cão inicial, pois ele determina a taxa de aprendizagem através da quantidade de registros no tempo.

2.3 CONSIDERAC¸ ˜OES SOBRE O ESTADO DA ARTE

Os trabalhos encontrados em Aprendizagem de Parˆametros em Redes Bayesianas foram divididos em quatro principais caracter´ısticas:

• Abordagem Online; • Suporte a dados missing; • Aspecto Generativo;

(59)

57

• Aspecto Discriminativo.

O Quadro 2.1 sintetiza os artigos encontrados, listando as prin-cipais caracter´ısticas de cada um deles. É feita também a compara¸cão com o método proposto (EMFuzzyOnline) e foi destacado os dois métodos utilizados para compara¸cão de desempenho do método pro-posto (Cap´ıtulo 4): de Máxima Verossimilhan¸ca (MLE), por ser o mais utilizado na literatura, e o Voting EM, no qual este trabalho foi base-ado.