• Nenhum resultado encontrado

Método fuzzy para aprendizagem online de parâmetros em redes bayesianas

N/A
N/A
Protected

Academic year: 2021

Share "Método fuzzy para aprendizagem online de parâmetros em redes bayesianas"

Copied!
106
0
0

Texto

(1)

UNIVERSIDADE FEDERAL DE SANTA CATARINA PROGRAMA DE P ´OS GRADUAC¸ ˜AO EM CIˆENCIA DA

COMPUTAC¸ ˜AO

Mariana Dehon Costa e Lima

M´ETODO FUZZY PARA APRENDIZAGEM ONLINE DE

PAR ˆAMETROS EM REDES BAYESIANAS

Florian´opolis 2019

(2)
(3)

Mariana Dehon Costa e Lima

M´ETODO FUZZY PARA APRENDIZAGEM ONLINE DE

PAR ˆAMETROS EM REDES BAYESIANAS

Tese submetida ao Programa de P´os Gradua¸c˜ao em Ciˆencia da Computa¸c˜ao da Universidade Federal de Santa Ca-tarina para a obten¸c˜ao do Grau de Doutora em Ciˆencia da Computa¸c˜ao.

Florian´opolis 2019

(4)

Ficha de identificação da obra elaborada pelo autor,

através do Programa de Geração Automática da Biblioteca Universitária da UFSC.

Lima, Mariana

Método Fuzzy para Aprendizagem Online de Parâmetros em Redes Bayesianas / Mariana Lima ; orientadora, Silvia Modesto Nassar, 2019. 106 p.

Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós Graduação em Ciência da Computação, Florianópolis, 2019.

Inclui referências.

1. Ciência da Computação. 2. Redes Bayesianas. 3. Aprendizagem Online. 4. Aprendizagem de Parâmetros. 5. Sistemas Fuzzy. I. Modesto Nassar, Silvia. II. Universidade Federal de Santa Catarina. Programa de Pós-Graduação em Ciência da Computação. III. Título.

(5)

Mariana Dehon Costa e Lima

M´ETODO FUZZY PARA APRENDIZAGEM ONLINE DE

PAR ˆAMETROS EM REDES BAYESIANAS

Esta Tese foi julgada aprovada para a obten¸c˜ao do T´ıtulo de “Doutora em Ciˆencia da Computa¸c˜ao”, e aprovada em sua forma fi-nal pelo Programa de P´os Gradua¸c˜ao em Ciˆencia da Computa¸c˜ao da Universidade Federal de Santa Catarina.

Florian´opolis, 18 de mar¸co 2019.

Prof. Jos´e Lu´ıs Almada G¨untzel, Dr. Coordenador do Programa Banca Examinadora:

Silvia Modesto Nassar

Universidade Federal de Santa Catarina Orientadora

Presidente

Heitor Silverio Lopes Participa¸c˜ao por V´ıdeo-Conferˆencia Universidade Tecnol´ogica Federal do Paran´a

(6)
(7)

Julio Cesar Nievola

Participa¸c˜ao por V´ıdeo-Conferˆencia Pontif´ıcia Universidade Cat´olica do Paran´a

Mario Antˆonio Ribeiro Dantas Participa¸c˜ao por V´ıdeo-Conferˆencia Universidade Federal de Juiz de Fora

Mauro Roisenberg

Universidade Federal de Santa Catarina

Paulo Afonso Bracarense Costa Participa¸c˜ao por V´ıdeo-Conferˆencia

Universidade Federal do Paran´a

Rog´erio Cid Bastos

(8)
(9)
(10)
(11)

AGRADECIMENTOS

Agrade¸co aos meus pais pelo o incentivo `a educa¸c˜ao desde a infˆancia que moldou n˜ao apenas a minha personalidade quanto a minha vida. A dedica¸c˜ao ´ımpar deles, o apoio e o amor incondicional foram os alicerces que me fizeram acreditar que eu tinha a capacidade de enfrentar esse desafio. Eles s˜ao os grandes vitoriosos por tr´as de toda essa jornada e essa conquista tamb´em ´e deles.

Agrade¸co `a minha tia Marlene que sempre foi a minha grande inspira¸c˜ao e a maior influˆencia intelectual na minha vida. Agrade¸co tamb´em aos meus familiares e aos meus av´os, em especial `a minha av´o Nininha (in memoriam). Agrade¸co tamb´em aos meus amigos (novos e antigos) que de alguma forma contribu´ıram para o meu bem-estar mental durante essa jornada. Obrigada Tatiane, Iris, D´ebora, Verˆonica, Sarah, Rodolfo, Alyson e Elaine.

Agrade¸co principalmente `a Ana Luiza que esteve em todas as eta-pas desse trabalho e me acompanhou tanto nos momentos bons quanto naqueles em que a ansiedade e afli¸c˜ao quase me venceram. Muito obri-gada pelas noites em claro, pelas revis˜oes incessantes, pela preocupa¸c˜ao, por sempre acreditar em mim e sempre deixar claro que eu n˜ao estava sozinha. Muito obrigada por ser a base emocional por tr´as desse tra-balho e eu n˜ao conseguiria chegar at´e aqui sem vocˆe.

Agrade¸co `a minha orientadora Silvia Modesto Nassar que ´e, e sempre vai ser, a minha referˆencia de integridade humana e acadˆemica em um mentor. Obrigada pelo conhecimento, base e t´ecnica transmiti-dos ao longo transmiti-dos anos. Muito obrigada, principalmente, pela confian¸ca no meu trabalho e por encarar esse desafio comigo. Ter sido sua orien-tanda tanto no mestrado quanto no doutorado foi uma grande honra e esse fato me impactou n˜ao apenas por todo conhecimento que adquiri quanto pela ´etica de trabalho impec´avel que vivenciei durante esses anos.

Agrade¸co tamb´em aos professores Paulo Jos´e de Freitas Filho e Mauro Roisenberg por todo apoio e orienta¸c˜ao ao longo dos anos e na execu¸c˜ao desse trabalho.

O presente trabalho foi realizado com apoio da Coordena¸c˜ao de Aperfei¸coamento de Pessoal de N´ıvel Superior - Brasil (CAPES) - C´odigo de Financiamento 001.

(12)
(13)

“Education is the most powerful weapon which you can use to change the world”. (Nelson Mandela, 23 June 1990)

(14)
(15)

RESUMO

Em problemas de aprendizagem, existem situa¸c˜oes onde os dados de treinamento n˜ao est˜ao totalmente dispon´ıveis durante o momento do aprendizado. Eles s˜ao gerados de forma interativa no tempo ou on-line e tem entre as suas caracter´ısticas a possibilidade de haver dados inconsistentes ou faltantes. Em Redes Bayesianas, a aprendizagem ´e dividida em duas categorias: estrutural (relacionada ao grafo da rede e suas liga¸c˜oes) e param´etrica (relacionada a probabilidade condicional das liga¸c˜oes). Neste trabalho ´e apresentado o EMFuzzyOnline - um m´etodo de aprendizagem de parˆametros online que se adapta rapida-mente `a mudan¸cas na distribui¸c˜ao dos dados. Essa adapta¸c˜ao busca n˜ao apenas de reproduzir a distribui¸c˜ao dos dados na Rede Bayesiana (aprendizagem generativa), como aumentar a acur´acia da rede como um todo (aprendizagem discriminativa). O m´etodo utiliza as t´ecnicas fuzzy, estat´ıstica e inferˆencia bayesiana. A abordagem ´e comparada com o m´etodo Voting EM Adaptativo e a Maximiza¸c˜ao da Verossimilhan¸ca considerando duas condi¸c˜oes de simula¸c˜ao: quando a distribui¸c˜ao dos dados ´e desconhecida, e quando ela ´e conhecida e passa por mudan¸cas bruscas durante a aprendizagem. Os experimentos foram feitos consi-derando trˆes cen´arios distintos: testando a rede estado da arte proposta no m´etodo Voting EM, com bases de dados p´ublicas do reposit´orio UCI e com uma base de dados real de perfura¸c˜ao de po¸cos de petr´oleo. O EMFuzzyOnline se mostrou robusto e vers´atil em ambas as situa¸c˜oes demonstrado atrav´es de experimenta¸c˜ao e resultados estat´ısticos, al´em de oferecer uma parametriza¸c˜ao mais simplificada do que a abordagem tradicional - reduzindo de trˆes para um parˆametro de configura¸c˜ao. Palavras-chave: Redes Bayesianas. Aprendizagem Online. Apren-dizagem de Parˆametros. AprenApren-dizagem Generativa. AprenApren-dizagem Discriminativa. Sistemas Fuzzy.

(16)
(17)

ABSTRACT

In learning problems, there are situations where training data is not fully available at the learning time. They are incrementally generated by time, defining a type of domain called online that has among its characteristics the possibility of data failure or even missing data. In Bayesian networks, learning is divided into two categories: structure (related to the graph of conditional relations) and parameters (related to the strength of conditional relations). In this work we present EM-FuzzyOnline, an online parameter learning method that quickly adapts to changes in the environment not only to reproduce the probability distribution (generative learning) but also to increase the accuracy in the network (discriminative learning) - it uses fuzzy techniques, statis-tics and general inference to achieve this goal. The approach is compa-red with the Adaptive Voting EM method and to Maximum Likelihood considering two simulation conditions: when distributions are unknown and when distributions undergo to abrupt changes. The experiments were made considering three different scenarios: testing the state-of-art network proposed on Voting EM Adaptive Method, with public datasets from UCI repository and with a real life database from oil wells perforation. The EMFuzzyOnline achieves good results in both situations by adjusting to environment changes more quickly and by simplifying the parameterization of the traditional approach.

Keywords: Bayesian Networks. Online Learning. Parameter Lear-ning. Generative LearLear-ning. Discriminative LearLear-ning. Fuzzy Systems.

(18)
(19)

LISTA DE FIGURAS

Figura 1 Rede para Detec¸c˜ao de Fraude no Cart˜ao de Cr´edito. Fonte: Heckerman (1995). . . 35 Figura 2 Tipos de Racioc´ınio Bayesiano. Fonte: Korb e Nicholson (2010). . . 36 Figura 3 Exemplo - Representa¸c˜ao de uma Rede Bayesiana. Fonte: a autora. . . 38 Figura 4 Compara¸c˜ao entre uma Rede Bayesiana do tipo poli-´arvore e uma rede multiconectada. Fonte: a autora. . . 39 Figura 5 Representa¸c˜ao de um indiv´ıduo no DPV. Fonte: Lima (2014). . . 42 Figura 6 Fluxograma do m´etodo DPV. Fonte: Lima (2014). . . 42 Figura 7 Sistema Fuzzy do algoritmo EMFuzzyOnline. Fonte: a autora. . . 59 Figura 8 Conjuntos fuzzy para o p-valor. Fonte: a autora. . . 63 Figura 9 Sub-sistema Fuzzy para a detec¸c˜ao de tendˆencia em θij.

Fonte: a autora. . . 63 Figura 10 Fun¸c˜oes de pertinˆencia para o grau de possibilidade a posteriori das Hip´oteses no sub-sistema fuzzy de tendˆencia. Fonte: a autora. . . 64 Figura 11 Conjunto de Regras para os Sub-sistemas Fuzzy de Tendˆencia. Onde: altamente significativo = AS , significativo = S e n˜ao signi-ficativo = NS. Fonte: a autora. . . 65 Figura 12 Superf´ıcie de resposta do Sub-sistema de inferˆencia fuzzy para tendˆencia. Fonte: a autora. . . 65 Figura 13 Conjuntos Fuzzy para a probabilidade do erro de classi-fica¸c˜ao. Fonte: a autora. . . 66 Figura 14 Conjuntos fuzzy para a taxa de ajuste m. Fonte: a autora. . . 67 Figura 15 Conjunto de Regras para determinar o valor do n´ıvel de ajuste m. Fonte: a autora. . . 68 Figura 16 Fluxograma dos procedimentos metodol´ogicos utilizada para a obten¸c˜ao dos Resultados Iniciais desta tese. Fonte: a autora. 71 Figura 17 Rede Bayesiana utilizada nos experimentos para a Si-tua¸c˜ao 1 - proposta por Cohen, Bronstein e Cozman (2001b). . . . 73

(20)

Figura 18 Rede Bayesiana utilizada nos experimentos para a Si-tua¸c˜ao 2. Fonte: a autora. . . 73 Figura 19 Convergˆencia dos Algoritmos EMFuzzyOnline, Voting EM e MLE Online para a RB em treinamento. Figura 19.(a), 19.(b) e 19.(c) s˜ao exemplos da evolu¸c˜ao de trˆes parˆametros θijk.

Fonte: a autora. . . 75 Figura 20 Evolu¸c˜ao da Log-verossimilhan¸ca (LV) da RB. Fonte: a autora. . . 76 Figura 21 Probabilidades marginais das RB ao final da Situa¸c˜ao 2. Fonte: a autora. . . 77 Figura 22 Evolu¸c˜ao da taxa de aprendizagem η para o nodo de sa´ıda Parent. Fonte: a autora. . . 78 Figura 23 M´edias m´oveis com janela de 50 amostras da evolu¸c˜ao da probabilidade do erro de classifica¸c˜ao na Situa¸c˜ao 2. Fonte: a autora. . . 78 Figura 24 Simula¸c˜ao do treinamento online em duas situa¸c˜oes: rede com CPT randomizada e com mudan¸ca brusca na distribui¸c˜ao dos parˆametros para os datasets Balance Scale, Car Evaluation e Con-gressional Voting Records. Fonte: a autora. . . 84 Figura 25 Simula¸c˜ao do treinamento online em duas situa¸c˜oes: rede com CPT randomizada e com mudan¸ca brusca na distribui¸c˜ao dos parˆametros para os datasets Breast Cancer Wisconsin (Diagnostic), Chess (King-Rook vs King-Pawn) e Tic-Tac-Toe Endgame. Fonte: a autora. . . 85 Figura 26 Simula¸c˜ao do treinamento online em duas situa¸c˜oes: rede com CPT randomizada e com mudan¸ca brusca na distribui¸c˜ao dos parˆametros para os datasets Blogger, Dishonest Internet Users e Lenses. Fonte: a autora.. . . 86 Figura 27 Fluxograma de decis˜ao para o Teste de M´edias/Medianas (Teste t ou Mann-Whitney). Fonte: a autora. . . 88 Figura 28 Rede Bayesiana para a S´erie de Perfura¸c˜ao de Petr´oleo. Diameter ´e o diˆametro da broca e WOB ´e o PSB. Fonte: a autora. 91 Figura 29 Simula¸c˜ao da aprendizagem online em duas situa¸c˜oes: rede com CPT randˆomicas e rede com uma mudan¸ca s´ubita de distribui¸c˜ao nos dados para o dataset de Perfura¸c˜ao de Po¸co de Petr´oleo. Fonte: a autora. . . 92

(21)

LISTA DE TABELAS

Tabela 1 Probabilidades Condicionais (CPT) para a vari´avel Jo-alheria. Fonte: Korb e Nicholson (2010). . . 37 Tabela 2 Configura¸c˜ao de Parˆametros para os m´etodos EMFuzzyOn-line e Voting EM.. . . 70 Tabela 3 Conjunto de CPT na Situa¸c˜ao 1 que comp˜oe a RB proposta por Cohen, Bronstein e Cozman (2001b). . . 73 Tabela 4 Conjunto de CPT que comp˜oe a RB na Situa¸c˜ao 2. . . 74 Tabela 5 S´ıntese dos resultados da Situa¸c˜ao 1 da Rede Voting EM para os m´etodos EMFuzzyOnline (abreviado para EMFO) e Voting EM Adaptativo (abreviado para VEA) para 20 valores obtidos durante a simula¸c˜ao. O valor x representa a m´edia da simula¸c˜ao e s o desvio padr˜ao para cada uma das m´etricas (G∆t,

D∆t, e GD∆t). . . 81

Tabela 6 S´ıntese dos resultados da Situa¸c˜ao 2 da Rede Voting EM para os m´etodos EMFuzzyOnline (abreviado para EMFO) e Voting EM Adaptativo (abreviado para VEA) para 20 valores obtidos durante a simula¸c˜ao. O valor x representa a m´edia da simula¸c˜ao e s o desvio padr˜ao para cada uma das m´etricas (G∆t,

D∆t, e GD∆t). . . 82

Tabela 7 S´ıntese dos resultados da An´alise Estat´ıstica de com-para¸c˜ao de m´edias/medianas para a Situa¸c˜ao 1 e Situa¸c˜ao 2. . . 89 Tabela 8 S´ıntese dos resultados da An´alise Estat´ıstica de com-para¸c˜ao de m´edias/medianas para a Situa¸c˜ao 1 e Situa¸c˜ao 2 no dataset de Pefura¸c˜ao em Po¸cos de Petr´oleo. . . 93

(22)
(23)

LISTA DE ABREVIATURAS E SIGLAS

AM Aprendizagem de M´aquina . . . 27 RB Rede Bayesiana . . . 27 DAG Grafo Ac´ıclico Direcionado . . . 28 MLE M´etodo de Maximiza¸c˜ao da Verossimilhan¸ca . . . 28 CPT Tabelas de Probabilidade Condicional . . . 29 IEEE Instituto de Engenheiros Eletricistas e Eletrˆonicos . . . 30 RBH Redes Bayesianas H´ıbridas . . . 40 EWD Discretiza¸c˜ao por Igual Largura . . . 40 EFD Discretiza¸c˜ao por Igual Frequencia . . . 40 DPV Discretiza¸c˜ao Pico e Vale. . . 40 MCAR Dado missing completamente aleat´orio . . . 44 MAR Dado missing aleat´orio. . . 44 NMAR Dado missing n˜ao aleat´orio . . . 44 IA Inteligˆencia Artificial . . . 45 EM Expectation Maximization . . . 45 ELR Extension to Logistic Regression . . . 47 DFE Discriminative Frequence Estimate . . . 48 ECL M´etodo de verossimilhan¸ca condicional exato . . . 48 ACL M´etodo de verossimilhan¸ca condicional aproximado . . . . 48 JoDiG Joint Discriminative - Generative Modelling . . . 48 CLL M´etrica de fatorizar˜ao da log-verossimilhan¸ca condicional 48 i.i.d. independentes e igualmente distribu´ıdas . . . 69 LV Log-verossimilhan¸ca. . . 75 LV Log-verossimilhan¸ca. . . 76 ROP Taxa de Perfura¸c˜ao - Rate of Penetration . . . 90 UCS Unconfined Compressive Strength . . . 91 PSB Peso Sobre a Broca . . . 91 RPM Revolu¸c˜oes por Minuto . . . 91

(24)
(25)

LISTA DE S´IMBOLOS

Ω Espa¸co de amostral onde Ω ={ω1, ω2,· · · , ωn}. . . 33

E Evento subconjunto de Ω. . . 33 P Distribui¸c˜ao de Probabilidade. . . 33 Ω Vetor de conjuntos disjuntos de hip´oteses. . . 34 S∗

Estrutura gr´afica de uma Rede Bayesiana. . . 37 Xi Uma vari´avel de uma Rede Bayesiana. . . 37

P ai Conjunto de pais da vari´avel Xi de uma Rede Bayesiana. . . 37

xk

i Poss´ıvel valor assumido por Xi.. . . 37

paji Poss´ıvel valor assumido por P ai. . . 37

θijk A probabilidade condicional P (Xi= xki|P ai= paji). . . 38

b

Xi Uma vari´avel cont´ınua. . . 40

b

xi Valor cont´ınuo assumido por bXi. . . 40

O(n) Complexidade computacional linear. . . 40 θ(t) Valor de θ assumido no tempo t.. . . 45

η Taxa de aprendizagem. . . 51 q Parˆametro que define quantos desvios padr˜oes de erro ´e aceit´avel

antes de se aumentar ηij no m´etodo Voting EM. . . 54

α Parˆametro que define o que ´e considerado convergˆencia para diminuir o ηij no m´etodo Voting EM ou o n´ıvel de significˆancia

em testes estat´ısticos. . . 54 m Parˆametro que define em qual propor¸c˜ao ηij ser´a

aumen-tado ou diminu´ıdo no m´etodo Voting EM ou n´ıvel de ajuste no m´etodo EMFuzzyOnline. . . 54 H0 Hip´otese nula em um Teste Estat´ıstico. . . 62

H1 Hip´otese alternativa em um Teste Estat´ıstico.. . . 62

ΘT

ij Janela temporal m´ovel n´umero T no m´etodo

EMFuzzyOn-line. . . 62 Xs Vari´avel de sa´ıda em um problema de classifica¸c˜ao. . . 65

maxδη A maior varia¸c˜ao poss´ıvel de ηij em uma ´unica intera¸c˜ao no

(26)
(27)

SUM ´ARIO 1 INTRODUC¸ ˜AO E CONTEXTUALIZAC¸ ˜AO . . . 27 1.1 PROBLEMATIZAC¸ ˜AO . . . 28 1.2 OBJETIVOS . . . 29 1.2.1 Objetivo Geral . . . 29 1.2.2 Objetivos Espec´ıficos . . . 29 1.3 JUSTIFICATIVA E MOTIVAC¸ ˜AO . . . 29 1.3.1 Contribui¸c˜oes . . . 30 1.4 ORGANIZAC¸ ˜AO DO TRABALHO . . . 31 2 FUNDAMENTAC¸ ˜AO TE ´ORICA . . . 33 2.1 REDES BAYESIANAS . . . 33 2.1.1 Defini¸c˜ao Formal . . . 37 2.1.2 Inferˆencia em Redes Bayesianas . . . 38 2.1.2.1 Discretiza¸c˜ao . . . 40 2.2 APRENDIZAGEM EM REDES BAYESIANAS . . . 43 2.2.1 Aprendizagem de Parˆametros . . . 43 2.2.1.1 Aprendizagem Generativa de Parˆametros . . . 43 2.2.1.1.1 Aprendizagem de Parˆametros em Dados Missing . . . 44 2.2.1.2 Aprendizagem Discriminativa de Parˆametros . . . 46 2.2.2 Aprendizagem Online de Parˆametros . . . 49 2.2.2.1 EM(η) - Expectation Maximization . . . 50 2.2.2.1.1 Voting EM . . . 51 2.2.2.1.2 Convergˆencia no Voting EM . . . 52 2.2.2.1.3 Voting EM - Adaptativo . . . 53 2.2.2.2 MLE Online . . . 54 2.3 CONSIDERAC¸ ˜OES SOBRE O ESTADO DA ARTE . . . 56 3 PROPOSTA - M´ETODO EMFUZZYONLINE . . . 59 3.1 DEFINIC¸ ˜AO DE VARI ´AVEIS . . . 61 3.2 TENDˆENCIA . . . 61 3.3 PROBABILIDADE DO ERRO DE CLASSIFICAC¸ ˜AO . . . 65 3.4 N´IVEL DE AJUSTE (m) . . . 66 4 RESULTADOS EXPERIMENTAIS . . . 69 4.1 EXPERIMENTO 1: REDE VOTING EM . . . 72 4.2 EXPERIMENTO 2: DATASETS P ´UBLICOS . . . 77 4.2.0.1 Avalia¸c˜ao de Desempenho . . . 78 4.2.0.2 Resultados Experimentais . . . 80 4.2.1 An´alise Estat´ıstica . . . 88

(28)

4.3 EXPERIMENTO 3: DATASET DE PERFURAC¸ ˜AO DE PETR ´OLEO . . . 90 4.3.1 An´alise Estat´ıstica . . . 92 5 CONSIDERAC¸ ˜OES FINAIS . . . 95 5.1 CONCLUS ˜OES . . . 95 5.2 TRABALHOS FUTUROS . . . 97 5.3 PUBLICAC¸ ˜OES . . . 98 REFERˆENCIAS . . . 99

(29)

27

1 INTRODUC¸ ˜AO E CONTEXTUALIZAC¸ ˜AO

Ser capaz de compreender os dados e aprender seus padr˜oes e relacionamentos ´e uma preocupa¸c˜ao constante na Inteligencia Com-putacional. A Aprendizagem de M´aquina (AM) ´e um conjunto de t´ecnicas computacionais que tem como objetivo a cria¸c˜ao de sistemas capazes de adquirir e organizar o conhecimento de forma autom´atica (MITCHELL, 1997).

Entre as t´ecnicas de AM est´a a Aprendizagem Supervisionada (AS) que consiste em modelar o relacionamento entre vetores de en-trada e e sa´ıda, atrav´es de um conjunto de treinamento geralmente descrito como um pacote de dados (batch) referentes `a algum dom´ınio de aplica¸c˜ao (MITCHELL, 1997). O objetivo dessa t´ecnica ´e realizar a classifica¸c˜ao ou previs˜ao de um vetor de sa´ıda (resultados) a partir de um vetor de entrada (evidˆencias).

Entretanto, um grande n´umero de dom´ınios produzem dados de forma cont´ınua e massiva al´em de mudar a sua distribui¸c˜ao de dados durante a opera¸c˜ao. ´E poss´ıvel citar, por exemplo, um sistema de ge-renciamento do trafego a´ereo: nesse tipo de aplica¸c˜ao ´e gerada uma grande quantidade de dados atrav´es de informa¸c˜oes ambientais, estru-turais ou operacionais. Outras aplica¸c˜oes com essas caracter´ısticas s˜ao aquelas formadas por sistemas de sensores ou ainda um grande servidor de e-mail que pode gerar centenas ou milhares de registros por segundo. Tamb´em caracter´ıstica deste tipo de dom´ınio ´e a ocorrˆencia de eventuais dados missing (faltantes) durante a coleta de dados. Isso acontece devido `as falhas de sensores, erro de leitura ou ainda a n˜ao disponibilidade da informa¸c˜ao em um dado momento do tempo.

Dom´ınios com essas configura¸c˜oes s˜ao chamados de online e pos-suem duas propriedades principais:

• O conjunto de dados n˜ao est´a inteiramente dispon´ıvel durante a cria¸c˜ao da fun¸c˜ao de aprendizagem;

• A frequˆencia e a distribui¸c˜ao das vari´aveis do dom´ınio podem mudar com o tempo.

A Aprendizagem Online consiste em processar conjuntos de da-dos com as propriedades descritas acima com o objetivo de evoluir e atualizar o conhecimento do sistema com novas evidˆencias do ambiente (BURLUTSKIY et al., 2016).

Entre as t´ecnicas de Aprendizagem Supervisionada ´e poss´ıvel destacar as Redes Bayesianas (RB) (PEARL, 1988) - utilizada nesta

(30)

28

tese. A RB ´e um modelo de representa¸c˜ao e racioc´ınio sob incer-teza atrav´es da probabilidade condicional entre as vari´aveis categ´oricas (qualitativas) de um dom´ınio expressadas por um grafo ac´ıclico direci-onado (Directed Acyclic Graph - DAG) (FRIEDMAN; GEIGER; GOLDSZ-MIDT, 1997).

Redes Bayesianas s˜ao capazes de mapear as correla¸c˜oes entre as vari´aveis e serem uma linguagem apropriada e com recursos efici-entes para a representa¸c˜ao da distribui¸c˜ao conjunta de probabilida-des sobre um conjunto randˆomico de vari´aveis (FRIEDMAN; GEIGER; GOLDSZMIDT, 1997). A t´ecnica ´e ainda mais atrativa por ser capaz de modelar problemas do mundo real e pela interpretabilidade da rede por n˜ao-especialistas (ZHOU, 2015).

1.1 PROBLEMATIZAC¸ ˜AO

O processo de Aprendizagem em Redes Bayesianas ´e dividido entre Aprendizagem de Estrutura e Aprendizagem de Parˆametros ( KU-RIHARA et al., 2001) (CHEN; SIVAKUMAR; KARGUPTA, 2001) (ZHANG; LIU, 2008). Enquanto a Aprendizagem de Estrutura tem como objetivo a constru¸c˜ao do grafo da rede, a Aprendizagem de Parˆametros foca na atualiza¸c˜ao das probabilidades condicionais entre as vari´aveis.

Os algoritmos de Aprendizagem de Parˆametros s˜ao divididos em duas categorias principais: generativo e discriminativo (SU et al., 2008). O primeiro cria as probabilidades condicionais considerando a distri-bui¸c˜ao dos dados do dom´ınio e o segundo cria as probabilidades condi-cionais com o objetivo de aumentar a acur´acia (acerto) na rede. Entre os algoritmos generativos os mais utilizados s˜ao os da maximiza¸c˜ao da verossimilhan¸ca (MLE) obtido diretamente do conjunto de dados e o Algoritmo EM (Expectation-Maximization) (DEMPSTER; LAIRD; RU-BIN, 1977) em caso de dados missing (faltantes ou incompletos).

Uma das dificuldades da aprendizagem de parˆametros est´a na complexidade computacional dos algoritmos, uma vez que o problema no pior caso ´e do tipo NP-hard (RATNAPINDA; DRUZDZEL, 2015). H´a ainda o risco do algoritmo ficar estacionado em um m´aximo local (MYERS; LASKEY; DEJONG, 1999).

A aprendizagem online de parˆametros ´e geralmente realizada atrav´es de adapta¸c˜oes nos m´etodos generativos ao informar qual a in-fluˆencia de dados futuros em rela¸c˜ao aos dados passados. Esses m´etodos possuem como objetivo a convergˆencia da rede, ou seja, reproduzir a distribui¸c˜ao dos dados nas tabelas de probabilidades condicionais.

(31)

29

Esta tese busca responder a seguinte pergunta: ´e poss´ıvel a cria¸c˜ao de um m´etodo de aprendizagem online de parˆametros que bus-que a otimiza¸c˜ao conjunta da convergˆencia e da acur´acia na Rede Baye-siana?

1.2 OBJETIVOS

1.2.1 Objetivo Geral

Propor um m´etodo de aprendizagem online de parˆametros em Redes Bayesianas que considere tanto a convergˆencia quanto a acur´acia da RB.

1.2.2 Objetivos Espec´ıficos

• Investigar a atualiza¸c˜ao das Tabelas de Probabilidade Condicio-nal (CPT) das vari´aveis da RB no tempo;

• Investigar a rela¸c˜ao entre a convergˆencia da rede e da acur´acia; • Investigar formas de realizar o hibridismo entre a abordagem

ge-nerativa e a discriminativa na aprendizagem de parˆametros; • Propor um m´etodo de aprendizagem online de parˆametros para

RB;

• Avaliar o m´etodo proposto.

1.3 JUSTIFICATIVA E MOTIVAC¸ ˜AO

Embora o racioc´ınio bayesiano seja probabil´ıstico, ´e poss´ıvel aliar t´ecnicas e racioc´ınios complementares na RB. Um exemplo de t´ecnica h´ıbrida ´e proposta no trabalho de Brignoli (2013) atrav´es um modelo que combina o racioc´ınio difuso (fuzzy) (ZADEH, 1965) com o racioc´ınio probabil´ıstico bayesiano em uma rede chamada Fuzzy-Bayesiana.

Em um trabalho desta autora (LIMA, 2014), foi desenvolvido um m´etodo de discretiza¸c˜ao para Redes Bayesianas atrav´es de regras de cortes baseadas em dados e da otimiza¸c˜ao global dos mesmos utilizando Algoritmo Gen´etico.

(32)

30

Ao combinar diferentes t´ecnicas de racioc´ınio para tratar a incer-teza em um dom´ınio, ´e poss´ıvel abordar mais de uma face do mesmo problema. A proposta desta tese est´a em explorar o hibridismo en-tre t´ecnicas para propor um novo m´etodo de aprendizagem online de parˆametros que seja capaz de combinar elementos da aprendizagem generativa com a aprendizagem discriminativa.

1.3.1 Contribui¸c˜oes

O processo para identificar a lacuna de pesquisa dentro da apren-dizagem online de parˆametros foi feito a partir de uma revis˜ao sis-tem´atica na literatura utilizando as bases IEEE, Elsevier e Springer sobre essa tem´atica.

Alguns pontos de referˆencia foram estabelecidos durante a busca: • O m´etodo funciona de forma online?

• O m´etodo ´e discriminativo ou generativo?

• O m´etodo possui tratamento para dados missing?

Nesta tese ´e proposto o m´etodo EMFuzzyOnline que realiza a aprendizagem online de parˆametros de forma h´ıbrida entre a aborda-gem discriminativa e a abordaaborda-gem generativa. O m´etodo proposto ´e baseado no m´etodo Voting EM Adaptativo (COHEN; BRONSTEIN; COZ-MAN, 2001a) e herda algumas de suas caracter´ısticas como a apren-dizagem online e a possibilidade de haver dados faltantes durante a aprendizagem.

Embora existam outros m´etodos de aprendizagem de parˆametros na literatura que fa¸cam o hibridismo entre a abordagem discriminativa e a generativa, ele ´e geralmente feito atrav´es da separa¸c˜ao das vari´aveis em dois conjuntos distintos. O primeiro conjunto ´e tratado de forma generativa (objetivando a reprodu¸c˜ao da distribui¸c˜ao dos dados) e o se-gundo de forma discriminativa (com objetivo de aumento da acur´acia em problemas de classifica¸c˜ao). O EMFuzzyOnline realiza esse hi-bridismo de forma integrada entre as duas abordagens: uma mesma vari´avel ´e aprendida simultaneamente de forma generativa e discrimi-nativa atrav´es de um sistema fuzzy de aprendizagem.

O ineditismo desta tese se encontra no conjunto de caracter´ısticas do m´etodo proposto: online, possibilitar dados faltantes e possuir um hibridismo real entre as duas abordagens cl´assicas de aprendizagem de parˆametros por meio de um sistema fuzzy.

(33)

31

A revis˜ao da literatura realizada ´e mostrada no Cap´ıtulo 2 e busca evidenciar os pontos abordados nesta Se¸c˜ao.

1.4 ORGANIZAC¸ ˜AO DO TRABALHO

Esta tese est´a dividida em cinco cap´ıtulos, com as seguintes ca-racter´ısticas:

• No Cap´ıtulo 1 ´e feita a introdu¸c˜ao ao problema e dada uma vis˜ao geral da tese al´em do objetivo geral e dos objetivos espec´ıficos; • No Cap´ıtulo 2 ´e feita a revis˜ao bibliogr´afica e a fundamenta¸c˜ao

te´orica sobre Aprendizagem de Parˆametros em Redes Bayesianas e os principais m´etodos da literatura nessa abordagem. Tamb´em s˜ao feitas as considera¸c˜oes sobre o Estado da Arte;

• No Cap´ıtulo 3 ´e feita a proposta da tese e os procedimentos me-todol´ogicos adotados;

• No Cap´ıtulo 4 s˜ao mostrados os resultados e avalia¸c˜ao estat´ıstica do m´etodo proposto;

• No Cap´ıtulo 5 s˜ao feitas as considera¸c˜oes finais e propostos tra-balhos futuros.

(34)
(35)

33

2 FUNDAMENTAC¸ ˜AO TE ´ORICA 2.1 REDES BAYESIANAS

A Rede Bayesiana (PEARL, 1988) ´e uma estrutura probabil´ıstica e requer conhecimento pr´evio em probabilidade. Nessa Se¸c˜ao ser´a feita uma introdu¸c˜ao com os conceitos relacionados ao t´opico que s˜ao utilizadas na abordagem proposta1.

Um espa¸co amostral Ω ´e definido como um conjunto de resulta-dos poss´ıveis de um experimento, tal que Ω = {ω1, ω2,· · · , ωn}. Um

evento E ´e um subconjunto de Ω, ou seja, E⊆ Ω. Um evento ´e definido como elementar se ele estiver associado a apenas um elemento.

A distribui¸c˜ao de probabilidade P ´e ´e definida por P : E → [0, 1]. As opera¸c˜oes utilizadas no espa¸co amostral seguem a Teoria de Conjuntos, contendo a uni˜ao (∪) e a interse¸c˜ao (∩).

A probabilidade condicional de um evento E acontecer, conside-rando a ocorrˆencia de um evento F , ´e:

P (E|F ) = P (E∩ F )

P (F ) (2.1)

desenvolvendo a f´ormula, chega-se na seguinte equa¸c˜ao:

P (E∩ F ) = P (E|F )P (F ) = P (F |E)P (E) (2.2) o que implica no Teorema de Bayes:

P (E|F ) = P (F|E)P (E)

P (F ) (2.3)

Alguns conceitos s˜ao definidos:

• P (E|F ) ´e a probabilidade posteriori (posterior probability) de E dado F ;

• P (F |E) ´e a verossimilhan¸ca de E dado F - probabilidade objetiva vinda dos dados;

(36)

34

• P (E) ´e a probabilidade marginal do evento E.

Os eventos n˜ao elementares (compostos) s˜ao comumente calcu-lados expandindo a fun¸c˜ao de probabilidade. Por exemplo, ´e poss´ıvel calcular o evento F pela equa¸c˜ao:

P (F ) = X Hi∈H P (F∩ Hi) = X Hi∈H P (F|Hi)P (Hi) (2.4)

onde H ´e um vetor de conjuntos disjuntos (sem elementos em comum) e H1∪ H2∪ · · · ∪ Hw = Ω. Os eventos podem ser considerados como

condicionalmente independentes caso P (E|F ) = P (E) e P (F |E) = P (F ).

Uma RB ´e um grafo que sintetiza as rela¸c˜oes causais entre as vari´aveis de um dom´ınio. A for¸ca dessas rela¸c˜oes ´e expressa por um conjunto de parˆametros probabil´ısticos que define suas probabilidades condicionais.

Para ilustrar uma RB ´e utilizado o exemplo fornecido por Hecker-man (1995) que aborda o problema de detec¸c˜ao de fraude em cart˜oes de cr´edito. A seguir s˜ao listadas as vari´aveis desse dom´ınio e seus poss´ıveis valores (classes):

• Fraude (f ): sim ou n˜ao;

• compra de Gasolina (g) nas ´ultimas 24 horas: sim ou n˜ao; • compra de Joalheria (j) nas ´ultimas 24 horas: sim ou n˜ao; • Idade (i): menos que 30 anos ou entre 30 e 50 anos ou maior que

50 anos;

• Sexo (s): feminino ou masculino.

Essas vari´aveis representam um dom´ınio que procura identificar se uma compra realizada atrav´es do cart˜ao de cr´edito ´e ou n˜ao frau-dulenta. Considerando que Fraude ´e uma causa direta de Gasolina e que, al´em disso, Fraude, Idade e Sexo s˜ao causas diretas de Joalheria, obtemos a rede ilustrada pela Figura 1.

A RB possui a capacidade de inferˆencia bidirecional sendo capaz de responder perguntas como:

• Se o dono do cart˜ao tiver comprado gasolina nas ´ultimas 24 horas, qual a probabilidade de existir fraude?

(37)

35

Fraude

Gasolina

Joalheria

Idade

Sexo

Figura 1: Rede para Detec¸c˜ao de Fraude no Cart˜ao de Cr´edito. Fonte: Heckerman (1995).

• Se o dono do cart˜ao tiver comprado joias nas ´ultimas 24 horas, qual a probabilidade de existir fraude?

• Se o dono do cart˜ao tiver comprado gasolina E joias nas ´ultimas 24 horas, qual a probabilidade de existir fraude?

• Se o dono do cart˜ao tiver comprado joias nas ´ultimas 24 horas, qual a probabilidade dele ser do sexo feminino e com menos de 30 anos?

Korb e Nicholson (2010) definem esse racioc´ınio pelo nome de diagn´ostico, ou seja, a probabilidade resultante ´e calculada a partir das evidˆencias na dire¸c˜ao oposta aos arcos da rede. No caso contr´ario, quando a probabilidade resultante ´e calculada no sentido dos arcos, o racioc´ınio ´e do tipo preditivo. ´E poss´ıvel ainda unir ambos os ra-cioc´ınios atrav´es dos tipos: intercausal ou combinado. A Figura 2 sintetiza essa defini¸c˜ao.

Al´em da rela¸c˜ao entre as vari´aveis a RB define qual ´e a “for¸ca” da mesma, ou seja, qual ´e a distribui¸c˜ao de probabilidade condicional associada `a cada nodo. Por exemplo, para a vari´avel Joalheria as suas probabilidades condicionais s˜ao:

(38)

36 Fraude Gasolina Joalheria Idade Sexo Evidência S a íd a ( Q u e ry

) Saída (Query) Saída (Query)

Fraude

Gasolina Joalheria

Idade Sexo Fraude

Gasolina Joalheria Idade Sexo Exemplo Ev id ên ci a Evidência Evidência Ev id ên ci a

Saída (Query) Saída (Query)

DIAGNÓSTICO PREDITIVO INTERCAUSAL COMBINADO Fraude Gasolina Joalheria Idade Sexo Ev id ên ci a

Saída (Query) Saída (Query)

Saída (Query)

Figura 2: Tipos de Racioc´ınio Bayesiano. Fonte: Korb e Nicholson (2010).

p(j = yes|f = yes, i =∗

, s =∗

) = 0.05

p(j = yes|f = no, i =< 30, s = masculino) => 0.0001 p(j = yes|f = no, i = 30 − 50, s = masculino) = 0.0004

p(j = yes|f = no, i => 50, s = masculino) = 0.0002 p(j = yes|f = no, i =< 30, s = f eminino) => 0.0005 p(j = yes|f = no, i = 30 − 50, s = f eminino) = 0.002 p(j = yes|f = no, i => 50, s = f eminino) = 0.001

Vetores de probabilidade condicional s˜ao usualmente expressos por tabelas. Por exemplo, a Tabela 1 representa as probabilidades condicionais dessa vari´avel.

O processo de racioc´ınio na rede ´e chamado de inferˆencia, sendo abordado nas Se¸c˜oes 2.1.1 e 2.1.2.

(39)

37

Tabela 1: Probabilidades Condicionais (CPT) para a vari´avel Joalheria. Fonte: Korb e Nicholson (2010).

Idade Sexo Fraude Joalheria

sim n˜ao idade < 30 feminino sim 0.05 0.95 n˜ao 0.0005 0.9995 masculino sim 0.05 0.95 n˜ao 0.0001 0.9999 30≤ idade ≤ 50 feminino sim 0.05 0.95 n˜ao 0.002 0.998 masculino sim 0.05 0.95 n˜ao 0.0004 0.9996 idade > 50 feminino sim 0.05 0.95 n˜ao 0.001 0.999 masculino sim 0.05 0.95 n˜ao 0.002 0.998 Nessa

tabela n˜ao h´a distin¸c˜ao de sexo quando F raude = sim.

2.1.1 Defini¸c˜ao Formal

Definindo formalmente2, uma RB possui uma estrutura gr´afica

S∗

que representa rela¸c˜oes causais entre as vari´aveis X = X1, . . . , Xn

e um conjunto de distribui¸c˜oes de probabilidade P associado a cada uma delas. A estrutura da rede ´e um grafo direcionado ac´ıclico (DAG) e cada nodo da rede representa uma vari´avel do dom´ınio (denotado aqui por Xi). O conjunto de pais de Xi em S∗ ´e chamado de P ai.

Uma vari´avel ´e considerada “pai” de outra se houver um arco indo da primeira para a segunda (Figura 3).

Uma RB ´e comumente parametrizada atrav´es de um conjunto de tabelas de probabilidade condicional (CPT). Cada CPT est´a ligada `

a Xi e cada linha da tabela representa uma instˆancia de P ai.

Formal-mente, s˜ao definidos xk

i para k = 1,· · · , ri como os poss´ıveis valores

assumidos por Xi e paji para j = 1,· · · , qi como os poss´ıveis valores

assumidos por P ai. ´E importante ressaltar que paji representa uma

instˆancia poss´ıvel de um conjunto de vari´aveis “pais” de Xi.

2As nota¸c˜oes utilizadas nesta tese seguem o padr˜ao de Bauer, Koller e Singer

(40)

38 A (saída) B (entrada) (entrada)C P(A=0) = 0.3 P(A=1) = 0.7 P(B=0|A=0) = 0.7 P(B=0|A=1) = 0.1 P(B=1|A=0) = 0.3 P(B=1|A=1) = 0.9 P(C=0|A=0) = 0.4 P(C=0|A=1) = 0.7 P(C=1|A=0) = 0.6 P(C=1|A=1) = 0.3 θijk θij CPT|Configuração de pais: CPT - Nodo:θi θijk Entradas CPT:

Figura 3: Exemplo - Representa¸c˜ao de uma Rede Bayesiana. Fonte: a autora.

´

E definido ainda, θijk como o parˆametro que representa uma

entrada na CPT para P (Xi = xki|P ai = paji) e θ como o conjunto de

todas as instˆancias de θijk.

Uma RB deve satisfazer a Condi¸c˜ao Local de Markov3e ´e

consi-derada uma liga¸c˜ao nula (ou inexistente) entre dois nodos em S∗

como uma representa¸c˜ao de independˆencia condicional. Portanto, a dis-tribui¸c˜ao conjunta de probabilidade em X ´e dada por:

P (X1, X2, . . . , Xn) = n

Y

i=1

p(Xi|P ai) (2.5)

2.1.2 Inferˆencia em Redes Bayesianas

O processo de inferˆencia ocorre ao determinar as probabilidades de interesse do modelo considerando a estrutura gr´afica S∗de uma RB.

Esse processo ´e realizado atrav´es de um conjunto de c´alculos conhecido como inferˆencia probabil´ıstica e ´e feito pelo Teorema de Bayes:

3Condi¸c˜ao Local de Markov: uma vari´avel X

i´e condicionalmente independente

(41)
(42)

40

a inferˆencia depende do modelo a ser representado e nem sempre ´e exata (LANGSETH et al., 2009). Redes com esse tipo de comportamento s˜ao chamadas de Redes Bayesianas H´ıbridas (RBH) e m´etodos de inferˆencia aproximada s˜ao geralmente utilizados.

Os m´etodos mais populares s˜ao: Discretiza¸c˜ao, Combina¸c˜ao de exponenciais truncadas e ainda uma abordagem utilizando Cadeia de Markov.

2.1.2.1 Discretiza¸c˜ao

A t´ecnica mais comum para lidar com a inferˆencia em Redes Bayesianas H´ıbridas ´e a discretiza¸c˜ao. Considere que uma vari´avel bXi

seja cont´ınua e assuma um valor bxi. A t´ecnica de discretiza¸c˜ao consiste

em trocar o valor cont´ınuo bxi por seu valor discreto equivalente xki.

Entre os algoritmos de discretiza¸c˜ao, os m´etodos EWD e EFD s˜ao amplamente utilizados por sua baixa complexidade computacional e facilidade de implementa¸c˜ao, al´em de sua boa performance (HSU; HUANG; WONG, 2003).

O m´etodo EWD possui complexidade linear em um vetor orde-nado. Ele divide uma vari´avel em intervalos de igual largura definindo os pontos de corte de forma que exista z intervalos com tamanhos de:

w = max bXi− min bXi

z (2.7)

O m´etodo EFD tamb´em possui complexidade O(n) em um vetor ordenado, por´em divide uma vari´avel em tamanhos de igual frequˆencia. Ou seja, os pontos de corte s˜ao definidos de forma que cada classe possua aproximadamente o mesmo n´umero de registros.

Um importante aspecto quanto as RB est´a na sua propriedade de inferˆencia: a distribui¸c˜ao de probabilidade de uma vari´avel influ-encia diretamente a outra (Equa¸c˜ao 2.5). A discretiza¸c˜ao de todas as vari´aveis ao mesmo tempo por uma otimiza¸c˜ao global considera esse as-pecto da rede. Com isso, diminui-se o erro na RB e, por consequˆencia, aumenta a sua acur´acia.

Entre as t´ecnicas que prop˜oem uma otimiza¸c˜ao global podemos citar o m´etodo de discretiza¸c˜ao Pico e Vale (DPV) (LIMA, 2014), pro-posta em Disserta¸c˜ao de Mestrado, que ´e utilizado neste trabalho.

Neste m´etodo assume-se que bXi possui valores em intervalos

ex-tremos e em um intervalo intermedi´ario. Ao analisar o intervalo in-termedi´ario ´e poss´ıvel obter os intervalos de valores extremos (valores

(43)

41

acima e valores abaixo dos limites do intervalo intermedi´ario) e esta-belecer suas probabilidades condicionais, assim como suas rela¸c˜oes de causa e efeito: “O que causou esse comportamento? O que ele im-plica?”.

Observando o comportamento de uma vari´avel, ´e poss´ıvel inferir se um valor bxk

i est´a fora do intervalo intermedi´ario, seja de forma

po-sitiva (alta) ou negativa (baixa). A delimita¸c˜ao dos intervalos utiliza dois pontos de corte expressos em percentil: o primeiro (pico) ´e restrito `

a ´area considerada “alta” e o segundo (vale) cobre a ´area considerada “baixa”.

O uso do percentil como medida para os pontos de corte incor-pora o conceito de frequˆencia dos dados (seguindo a linha do EFD). Por´em, o m´etodo DPV n˜ao segue uma regra pr´e-definida de cortes, ou seja, a quantidade de dados em cada classe ´e descoberta em tempo de processamento. Al´em disso, ao utilizar a medida de percentil ´e poss´ıvel restringir a ´area de cobertura de cada um dos cortes, definindo seus limites de atua¸c˜ao.

O uso dos dois pontos de corte sugere que uma vari´avel num´erica possui trˆes comportamentos distintos: “baixo”, “m´edio” e “alto”. En-tretanto, essa premissa nem sempre ´e verdadeira e a utiliza¸c˜ao desses trˆes comportamentos pode n˜ao trazer benef´ıcios para a cria¸c˜ao de uma RB. Isso acontece quando os pontos de corte est˜ao muito pr´oximos dos valores limites, por exemplo, o corte de vale est´a muito pr´oximo do menor percentil da vari´avel ou o corte de pico est´a muito pr´oximo do maior percentil. ´E poss´ıvel ainda que os dois cortes estejam t˜ao perto um do outro que um intervalo intermedi´ario ´e considerado irrelevante. O ponto fundamental para estabelecer os percentis dos cortes est´a no algoritmo de busca, nesse caso, o Algoritmo Gen´etico. Cada vari´avel num´erica bXi do conjunto de dados ter´a seus dois pontos de

corte. Esses pontos ser˜ao encontrados atrav´es da busca pelo AG e ser´a escolhido o conjunto mais “bem adaptado” `a fun¸c˜ao objetivo no que diz respeito `a RB. O conjunto de pontos, que representa um indiv´ıduo, pode ser visto na Figura 5.

A Figura 6 mostra a vis˜ao geral do m´etodo proposto. ´

E importante ressaltar que o m´etodo DPV ´e de discretiza¸c˜ao visando a descoberta de conhecimento na RB, ou seja, o conjunto de vari´aveis discretizadas deve refor¸car o processo de aprendizagem. Dessa forma, a distribui¸c˜ao de probabilidade dentro de cada nodo da RB n˜ao necessariamente ser´a sim´etrica.

A escolha do melhor indiv´ıduo no AG est´a diretamente associada ao mecanismo de classifica¸c˜ao na Rede Bayesiana. Cada nodo em uma

(44)

42

Figura 5: Representa¸c˜ao de um indiv´ıduo no DPV. Fonte: Lima (2014).

Figura 6: Fluxograma do m´etodo DPV. Fonte: Lima (2014).

RB ´e expresso por um vetor probabilidades, sendo que cada um de seus estados tem uma probabilidade de ser “verdadeiro”. Neste trabalho foi adotado o m´etodo de classifica¸c˜ao que escolhe o maior valor no vetor de probabilidades do nodo de sa´ıda para classificar a instˆancia.

Existem duas situa¸c˜oes poss´ıveis para se estabelecer o fitness de um indiv´ıduo durante a execu¸c˜ao do DPV: quando a vari´avel de sa´ıda ´e qualitativa e quando a vari´avel de sa´ıda ´e quantitativa.

Quando a vari´avel de sa´ıda ´e qualitativa, um maior desempenho da rede est´a diretamente ligado `a classifica¸c˜ao correta dos dados. Por-tanto, a medida de desempenho nesses casos ´e a pr´opria acur´acia e o objetivo do algoritmo ´e a sua maximiza¸c˜ao.

Entretanto, quando a vari´avel de sa´ıda ´e quantitativa, objetiva-se estimar valores atrav´es do objetiva-seu vetor de probabilidade. Esobjetiva-ses valores

(45)

43

correspondem aos valores m´edios da distribui¸c˜ao e o desempenho da rede est´a ligado `a minimiza¸c˜ao da taxa de erro entre os valores esti-mados e os valores num´ericos da vari´avel de sa´ıda.

2.2 APRENDIZAGEM EM REDES BAYESIANAS

Existem trˆes formas de realizar a aprendizagem em RB: exclu-sivamente dos dados (base de dados), excluexclu-sivamente dos especialistas do dom´ınio ou aprender de forma h´ıbrida tanto dos dados quanto dos especialistas.

A Aprendizagem de Estrutura tem como objetivo identificar as independˆencias condicionais entre as vari´aveis do dom´ınio. J´a a Apren-dizagem de Parˆametros objetiva o preenchimento das CPT em uma RB, ou seja, estabelecer as probabilidades condicionais entre as vari´aveis em uma determinada topologia.

Nesta tese delimitaremos o campo de pesquisa para a Aprendi-zagem de Parˆametros (Se¸c˜ao 2.2.1) que est´a relacionada a estima¸c˜ao das tabelas de probabilidade condicional (CPT) e ´e divida em duas abordagens: generativa e discriminativa.

A aprendizagem generativa possui um comportamento mais di-reto: as probabilidades condicionais s˜ao computadas diretamente dos dados. J´a a abordagem discriminativa realiza a aprendizagem conside-rando a probabilidade condicional das vari´aveis de forma a proporcionar o aumento da acur´acia na RB (SU et al., 2008).

2.2.1 Aprendizagem de Parˆametros

A Aprendizagem de Parˆametros est´a relacionada ao preenchi-mento das CPT em uma estrutura fixa S∗. Ou seja, assume-se que

h´a uma distribui¸c˜ao conjunta de probabilidade P (·) que representa um dom´ınio.

2.2.1.1 Aprendizagem Generativa de Parˆametros

A Aprendizagem Generativa ´e feita a partir do conjunto do da-dos, buscando a maximiza¸c˜ao da verossimilhan¸ca (ZHOU, 2015) e ´e conhecida como MLE (maximum likelihood estimation) (FRIEDMAN; GEIGER; GOLDSZMIDT, 1997). A estimativa do MLE para cada CPT ap´os T amostras, sem dados missing, ´e dada pela f´ormula:

(46)

44 θTijk= NT ijk NT ij (2.8) onde NT

ijk ´e o n´umero de vezes que foram observados os dados na

con-figura¸c˜ao xk

i para o conjunto de pais pa j

i e NijT a quantidade total.

2.2.1.1.1 Aprendizagem de Parˆametros em Dados Missing

Os dados missing (missing) podem ser divididos em trˆes catego-rias (RUBIN, 1976):

• Dado missing completamente aleat´orio (MCAR - missing com-pletely at random)

• Dado missing aleat´orio (MAR - missing at random)

• Dado missing n˜ao aleat´orio - (NMAR - missing not at random) Dados missing do tipo MCAR s˜ao aqueles que possuem o maior grau de aleatoriedade e ocorrem quando a probabilidade de encontrar um valor missing ´e a mesma para todas as vari´aveis em qualquer con-junto de dados. Por exemplo: em uma rede de sensores alguns, de forma aleat´oria, deixam de capturar dados em determinados momentos.

Dados do tipo MAR ocorrem quando uma vari´avel Xj do

con-junto de dados influencia a existˆencia de dados missing em uma vari´avel diferente Xi. Por exemplo, imagine uma rede de sensores de seguran¸ca

que capturam a temperatura e a existˆencia de movimento em um deter-minado ambiente. Imagine ainda que alguns sensores de movimento em possuam um hardware sens´ıvel `a temperatura ambiental: em caso de temperaturas altas eles nem sempre conseguem capturar a existˆencia de movimento. Nesse caso uma vari´avel diferente daquela observada muda a probabilidade de dados missing acontecerem.

S˜ao considerados como NMAR quando os dados missing est˜ao relacionados `a eventos n˜ao observados ou ainda do pr´oprio atributo. Por exemplo, se a temperatura ambiental influenciar na habilidade dos sensores em capturar os dados da pr´opria temperatura ou ainda se o fator que influencia a ocorrˆencia de dados missing for desconhecido.

As formas de se tratar dados missing e, consequentemente, a Aprendizagem de Parˆametros podem ser resumidas em trˆes diferentes abordagens:

(47)

45

• Ignorar/descartar os dados: ´e a maneira mais simples de se lidar com dados do tipo missing - remove os dados missing ou ainda uma vari´avel do conjunto de dados. Ela nem sempre ´e vi´avel e pode gerar grandes distor¸c˜oes nos dados, sendo apenas recomen-dada em casos de MCAR.

• Imputa¸c˜ao: t´ecnica que substitui os valores missing por valores estimados. A estimativa pode ser por medidas estat´ısticas obtidas pelos dados ou ainda por alguma outra t´ecnica de Inteligˆencia Artificial (IA) Um bom resumo do assunto ´e encontrado em Silva (2010).

• Estimativa de parˆametros: m´etodos que utilizam a verossimi-lhan¸ca na estimativa. Geralmente s˜ao utilizadas duas t´ecnicas: EM (Expectation Maximization) ou otimiza¸c˜ao da verossimi-lhan¸ca com um m´etodo do tipo gradiente e s˜ao conhecidas por es-timar consistentemente dados do tipo MAR (BROECK et al., 2014).

´

E importante notar que uma vari´avel com dados missing n˜ao ´e uma vari´avel do tipo hidden (escondida) - portanto h´a dados da vari´avel, mas n˜ao em todos os casos.

O Algoritmo EM (DEMPSTER; LAIRD; RUBIN, 1977) possibilita a estima¸c˜ao de parˆametros em modelos com dados missing, sendo o algoritmo mais utilizado (ZHOU, 2015). Esse algoritmo utiliza uma repeti¸c˜ao que alterna em dois passos (Etapa E e Etapa M ) at´e atingir a convergˆencia.

Em um dado registro de dados (linha) yl´e poss´ıvel ter dados

mis-sing (Zl ={zl1,· · · , zlo}) e vari´aveis observadas (Γl ={γl1,· · · , γlh})

onde o + h = n. As etapas para convergˆencia s˜ao dadas por:

• Etapa E (etapa de expectativa): a partir da configura¸c˜ao de parˆametros atual (θ(t)), onde a primeira intera¸c˜ao ´e dada por

θ(0) e tem a configura¸c˜ao inicial dada por valores randˆomicos. A

expectativa ´e calculada atrav´es da fun¸c˜ao de m´axima verossimi-lhan¸ca considerando o conjunto de dados D:

l(θ|θ(t)) =X l X γl1,··· ,γlh p(γl1,· · · , γlh|Zl, θ(t)) log p(Zl,γl1,··· ,γlh|θ (t)) (2.9) • Etapa M (etapa de maximiza¸c˜ao): calcula a nova estimativa de

(48)

46

O Algoritmo 1 descreve a abordagem computacional dessa abor-dagem.

Algoritmo 1 Expectation Maximization (EM) 1: θ← valores aleat´orios

2: enquanto n˜ao convergir fa¸ca

3: Etapa E: utilize γlpara calcular l(θ|θ(t))

4: Etapa M: substitua θ pela maximiza¸c˜ao da Etapa E 5: fim enquanto

devolve θ

Algumas varia¸c˜oes do m´etodo foram propostas na literatura como por exemplo o EM(η) (BAUER; KOLLER; SINGER, 1997). Esse algoritmo define o conceito de taxa de aprendizagem no algoritmo EM e as regras de atualiza¸c˜ao considerando uma Rede Bayesiana. O m´etodo Voting EM (COHEN; BRONSTEIN; COZMAN, 2001b) (COHEN; BRONSTEIN; COZ-MAN, 2001a) ´e uma vers˜ao online do EM(η).

Outra abordagem bastante utilizada para aprendizagem em da-dos missing ´e atrav´es de m´etoda-dos gradientes, que s˜ao uma alternativa de aprendizagem nos casos em que a RB possui vari´aveis cont´ınuas (BINDER et al., 1997) (BUNTINE, 1994).

Outras formas de aprendizagem em dados missing foram de-senvolvidas na literatura seja utilizando m´etodos do tipo Monte Carlo ou ainda por aproxima¸c˜ao Gaussiana (BARBER, 2012). Al´em disso h´a abordagens mistas, como a de Broeck et al. (2014) que prop˜oe uma m´etodo de aprendizagem com foco em dados do tipo MCAR e MAR atrav´es de uma RB que representa a rela¸c˜ao entre as vari´aveis missing (MOHAN; PEARL; TIAN, 2013).

Nesta tese ´e utilizada uma vers˜ao modificada do m´etodo EM e herda suas propriedades de tratamento de dados missing. Entretanto, essa ´e uma propriedade secund´aria do m´etodo e n˜ao foi testada expe-rimentalmente.

2.2.1.2 Aprendizagem Discriminativa de Parˆametros

A Aprendizagem Discriminativa ´e caracterizada quando a ob-jetivo principal ´e o aumento da acur´acia dentro da RB. Entretanto, a aprendizagem discriminativa possui uma complexidade computaci-onal maior que a generativa e ´e considerado um problema NP-hard (GREINER; ZHOU, 2002). Nesse tipo de aprendizagem o objetivo ´e

(49)

en-47

contrar parˆametros que maximizem a log verossimilhan¸ca condicional ao contr´ario de simplesmente maximizar a verossimilhan¸ca.

Outro m´etodo relacionado ao m´etodo EM ´e o EM-like proposto por Saloj¨arvi, Puolam¨aki e Kaski (2005). O m´etodo ´e uma vers˜ao discriminativa do m´etodo EM e objetiva a maximiza¸c˜ao das probabili-dades condicionais e n˜ao da verossimilhan¸ca como acontece no m´etodo EM cl´assico.

O artigo pioneiro na abordagem discriminativa foi o ELR (Ex-tension to Logistic Regression) proposto por Greiner e Zhou (2002) onde as CPT s˜ao estimadas por um processo que utiliza o gradiente descendente como forma de maximizar a probabilidade condicional. Os autores mostram que a aprendizagem discriminativa requer me-nos instˆancias de treinamento que a generativa para convergir e que geralmente leva a um classificador mais eficiente. Entretanto, o custo computacional pode ser significativamente maior.

Entre as pesquisas nessa ´area, ´e poss´ıvel citar aqueles com abor-dagem exclusivamente discriminativas (GREINER; ZHOU, 2002), ( GREI-NER; ZHOU, 2002), (PERNKOPF; WOHLMAYR, 2009), (PERNKOPF; BIL-MES, 2005), (ZHANG; SU, 2008), (CARVALHO et al., 2011), (FEELDERS; IVANOVS, 2006), (SU et al., 2008). Ou abordagens h´ıbridas entre os al-goritmos discriminativos e os generativos como em Raina et al. (2003), Xue e Titterington (2010), Kang e Tian (2006) e Zaidi et al. (2017).

Raina et al. (2003) prop˜oem um m´etodo h´ıbrido entre a abor-dagem generativa e discriminativa. O m´etodo divide as vari´aveis em dois grupos: discriminativo e generativo. Portanto, se uma vari´avel possui influˆencia direta na classifica¸c˜ao ela ´e aprendida de forma dis-criminativa e, caso contr´ario, de forma generativa. O m´etodo obteve uma alta taxa de acur´acia e um erro baixo quando comparado quando comparado ao ELR.

Kang e Tian (2006) prop˜oem o m´etodo HBayes-NB que ´e uma abordagem h´ıbrida para a aprendizagem de parˆametros e de estrutura. O HBayes-NB realiza o relaxamento da topologia na¨ıve bayes por meio da cria¸c˜ao de arcos adicionais no grafo. As vari´aveis s˜ao separadas em dois conjuntos: discriminativo e generativo. A aprendizagem discrimi-nativa ´e feita pelo m´etodo ELR e a generativa pelo MLE. O m´etodo obteve bons resultados quando testado em bases de dados p´ublicas e comparado com m´etodos estado da arte em problemas de classifica¸c˜ao. Liu e Liao (2008a) prop˜oem um m´etodo de aprendizagem online feito pela combina¸c˜ao do m´etodo MLE e do m´etodo Voting EM. O m´etodo proposto pelos autores altera a taxa de aprendizagem do Voting EM proporcionalmente ao tempo de chegada dos dados de forma similar

(50)

48

ao m´etodo MLE. A abordagem obteve resultados similares ao Voting EM por´em se mostrou menos sens´ıvel `a configura¸c˜ao de parˆametros.

Su et al. (2008) prop˜oem o m´etodo DFE (Discriminative Fre-quence Estimate) que aprende parˆametros de forma discriminativa con-siderando a frequˆencia dos dados. O DFE ´e uma varia¸c˜ao do m´etodo MLE e utiliza o erro (loss) como uma penalidade na aprendizagem. O m´etodo foi comparado com o MLE, ELR e com um m´etodo de en-semble em diversas bases de dados p´ublicas do reposit´orio da UCI. O DFE obteve bons resultados e os autores concluem que o m´etodo ´e computacionalmente eficiente, converge rapidamente e possui resulta-dos similares aos m´etoresulta-dos estado da arte.

Pernkopf e Wohlmayr (2009) prop˜oem trˆes m´etodos discrimina-tivos de aprendizagem de parˆametros. O primeiro ´e uma extens˜ao para RB do algoritmo Baum-Welch (BRIDLE, 1990). Os outros dois m´etodos s˜ao baseados no EM-like (SALOJ ¨ARVI; PUOLAM ¨AKI; KASKI, 2005): ECL (M´etodo de verossimilhan¸ca condicional exato) e ACL (M´etodo de ve-rossimilhan¸ca condicional aproximado). Os m´etodos foram testados em bases de dados p´ublicas e comparados com o m´etodo MLE, obtendo re-sultados superiores em problemas de classifica¸c˜ao.

Xue e Titterington (2010) prop˜oem o m´etodo JoDiG (Joint Dis-criminative Generative Modelling). O m´etodo realiza a aprendizagem de parˆametros dividindo as vari´aveis em dois conjuntos: discriminativo e generativo. Uma vari´avel ´e tratada de forma discriminativa se n˜ao for encontrado um processo ou uma fun¸c˜ao que origine os dados, ou seja, se ela n˜ao tiver uma boa aderˆencia `a alguma fun¸c˜ao de distribui¸c˜ao de probabilidade. O m´etodo foi testado em bases de dados p´ublicas do reposit´orio da UCI e obteve resultados similares ou melhores que outros m´etodos apenas discriminativos ou generativos.

Jing, Jing-qi e Wei (2011) prop˜oem um m´etodo de aprendizagem de parˆametros baseado na teoria de controle interativo de aprendiza-gem. O algoritmo proposto fornece um sistema dinˆamico e regras para a atualiza¸c˜ao das CPT. Os autores analisaram a convergˆencia do al-goritmo e conclu´ıram que as probabilidades condicionais alcan¸cadas refletiam com exatid˜ao `aquelas desejadas. Al´em disso, a taxa de con-vergˆencia foi melhorada de forma significativa quando comparado com outros algoritmos de aprendizagem na literatura.

Carvalho et al. (2011) prop˜oem uma m´etrica de score baseada em dados e sem a utiliza¸c˜ao de parˆametros atrav´es da fatoriza¸c˜ao da log-verossimilhan¸ca condicional (CLL). A t´ecnica ´e utilizada tanto para a aprendizagem de estrutura quanto para a aprendizagem de parˆametros, tendo como objetivo aumentar a classifica¸c˜ao na RB. Os autores

(51)

ob-49

tiveram bons resultados ao comparar o m´etodo proposto com outros classificadores em bases de dados p´ublicas. Al´em disso, os autores conclu´ıram que o tempo computacional da t´ecnica ´e significantemente menor.

Broeck et al. (2014) prop˜oem uma nova fam´ılia de algoritmos para a aprendizagem de parˆametros em dados missing. As principais caracter´ısticas s˜ao: os parˆametros s˜ao computados de forma n˜ao in-terativa, as estimativas s˜ao obtidas sem a necessidade da inferˆencia bayesiana e a estima¸c˜ao de parˆametros ´e consistente para grandes ba-ses de dados. Os autores concluem que os algoritmos s˜ao mais r´apidos que o EM tradicional e evita m´ınimos locais.

Zaidi et al. (2017) prop˜oem um m´etodo discriminativo de apren-dizado de parˆametros para RB atrav´es da combina¸c˜ao de um m´etodo de aprendizagem generativa e um m´etodo de estima¸c˜ao de parˆametros (usando a aprendizagem generativa como pr´e-condi¸c˜ao da busca de parˆametros na aprendizagem discriminativa). Embora o m´etodo te-nha natureza discriminativa, ele estima as probabilidades utilizando os valores encontrados na aprendizagem generativa para agilizar o pro-cesso. Os autores fizeram experimentos em 72 conjuntos de dados e demonstraram que o novo m´etodo ´e uma alternativa eficiente `a outros m´etodos de parametriza¸c˜ao da literatura.

2.2.2 Aprendizagem Online de Parˆametros

Dentro da Aprendizagem de M´aquina chamamos de M´etodos Aprendizagem Online aqueles que aprendem a partir de um conjunto de dados dispon´ıvel de forma sequencial ou interativa. ´E um tipo de aprendizagem adaptativa e considera que o dom´ınio muda com o tempo - o oposto da Aprendizagem por pacote ou batch, em que todos os dados est˜ao dispon´ıveis no momento do treinamento.

Alguns dos algoritmos mais utilizados no contexto das RB utili-zam a aprendizagem generativa, como em Cohen, Bronstein e Cozman (2001b) que prop˜oe o m´etodo Voting EM baseado nas regras definidas por (BAUER; KOLLER; SINGER, 1997) utilizando conceitos de m´axima verossimilhan¸ca. As principais caracter´ısticas do Voting EM s˜ao:

• adapta¸c˜ao `a mudan¸cas na distribui¸c˜ao dos dados;

• habilidade de escapar dos m´aximos locais na fun¸c˜ao de verossi-milhan¸ca;

(52)

50

• adapta¸c˜ao mais r´apida quando h´a mudan¸cas na distribui¸c˜ao dos dados que o MLE.

2.2.2.1 EM(η) - Expectation Maximization

Bauer, Koller e Singer (1997) definem as regras de atualiza¸c˜ao de parˆametros em Redes Bayesianas. Para isso, considere um conjunto de dados qualquer D ={y1,· · · , yN} e o conjunto atual de parˆametros

θ, (CPT), que definem a rede.

A atualiza¸c˜ao dos parˆametros da rede ´e feita atrav´es da maxi-miza¸c˜ao:

e

θ = arg maxθ[F (θ)]

= arg maxθ[ηLD(θ)− d(θ, θ)]

(2.10)

onde LD(θ) ´e a log-verossimilhan¸ca normalizada dos dados

conside-rando a rede, d(θ, θ) ´e a distˆancia entre os dois modelos e η, 0 < η≤ 1 ´e a taxa de aprendizagem.

Cohen, Bronstein e Cozman (2001b) utilizam a distˆancia qui-quadrado em d(θ, θ) atrav´es de uma aproxima¸c˜ao de Taylor de primeira ordem para F e resolvendo a maximiza¸c˜ao considerando quePkθijk=

1, a solu¸c˜ao aproximada ´e obtida:

e θijk = θijk+ η Eθ[xk i, pa j i|D] b P (paji) − Eθ[paji|D] b P (paji) · θijk ! (2.11) onde Eθ[zik, pa j i|D] = 1 N N X l=1 P (xki, pa j i|yl, θ) (2.12)

e bP (paji) ´e uma estimativa de Peθ(P ai= pa j i) dada por: b P (paji) = Eθ[paji|D] = 1 N N X l=1 P (paji|yl, θ) (2.13)

(53)

51

Essa regra de atualiza¸c˜ao ´e chamada de EM (η) , sendo poss´ıvel dividir o algoritmo em duas etapas:

• Etapa E (expectation): Cria uma fun¸c˜ao para a log-verossimilhan¸ca esperada usando a expectativa atual para os parˆametros atrav´es da Equa¸c˜ao 2.12.

• Etapa M (maximization): Calcula os parˆametros maximizando a log-verossimilhan¸ca esperada encontrada na Etapa E atrav´es da Equa¸c˜ao 2.11.

A taxa de aprendizagem η ´e utilizada como uma medida do quanto o passado ´e confi´avel considerando novos dados. Quanto mais pr´oximo de zero menor a influencia dos dados novos na rede.

2.2.2.1.1 Voting EM

O Algoritmo Voting EM (COHEN; BRONSTEIN; COZMAN, 2001b) ´e uma adapta¸c˜ao direta do EM(η) para ser utilizado de forma online. A regra de atualiza¸c˜ao ´e dada por:

θt ijk=    θt−1ijk + ηP (xk i|yt)− θt−1ijk  se P (paji|yt, θt−1)6= 0

θijkt−1 caso contr´ario

(2.14) sendo P (xk i|yt) = P (xk i, pa j i|yt, θt−1) P (paji|yt, θt−1) (2.15) onde T = {0, · · · , t − 1, t, t + 1, · · · } representa a unidade temporal atual e θ0

ijk(a CPT inicial) ´e preenchida por valores randˆomicos ou por

valores pr´e treinados.

A taxa de atualiza¸c˜ao η mostra o quanto o passado ´e confi´avel considerando os dados presentes. Quando η se aproxima de 1 os dados atuais s˜ao considerados mais confi´aveis e o conhecimento do passado ´e eliminado. A taxa pode ser tanto fixa quanto adaptativa (Se¸c˜ao 2.2.2.1.3).

(54)

52

Algoritmo 2 Voting EM

1: θ0← valores aleat´orios ou pr´e treinados

2: η← ? | 0 < η ≤ 1 (definido pelo usu´ario) 3: t← 0

4: enquanto houver amostras fa¸ca 5: para cada Xi em X fa¸ca

6: obtenha o conjunto P ai

7: para cada paji em P ai fa¸ca

8: para cada xk

i em Xi fa¸ca

9: atualize θijkt+1 pela Equa¸c˜ao 2.14

10: fim para 11: fim para 12: fim para 13: t← t + 1 14: fim enquanto 2.2.2.1.2 Convergˆencia no Voting EM

Para o estudo da convergˆencia do algoritmo (COHEN; BRONS-TEIN; COZMAN, 2001a), considere as seguintes afirma¸c˜oes:

• Nos casos em que D n˜ao possui dados missing os pais da vari´avel xk

i s˜ao sempre observ´aveis e portanto P (pa j

i|yt, θt) = 1.

• A Equa¸c˜ao 2.14, nesses casos, pode ser reescrita por:

θt

ijk = (1− η)θ t−1

ijk + η∗ It (2.16)

onde It´e um processo Bernoulli igualmente distribu´ıdo dado por:

It=



1 com probabilidade θijk = c∗

0 com probabilidade 1− c∗ (2.17)

sendo c∗ = P (X

i= xki|P ai= paji) o valor verdadeiro da entrada

na CPT.

Com as afirma¸c˜oes acima s˜ao obtidas as seguintes propriedades: Teorema 1 Em uma RB com estrutura fixa S∗, sem dados missing

em D e com 0 < η≤ 1 utilizando Equa¸c˜ao 2.14, algumas propriedades s˜ao obtidas:

(55)

53

1. θt

ijk ´e uma estimativa consistente de c

, e a seguinte equa¸c˜ao ´e

obtida atrav´es da solu¸c˜ao de recorrˆencia:

E[θt ijk] = (1− η)tθ0ijk+ (1− (1 − η)t)· c ∗ ⇒ lim t→∞E[θ t ijk] = c ∗ (2.18) 2. A variˆancia da estimativa de θt

ijk ´e finita e portanto:

V ar[θtijk] = η· c∗ (1− c∗ ) 2− η · (1 − (1 − η) 2t+2) (2.19) lim t→∞V ar[θ t ijk] = η 2− η · c ∗ (1− c∗ ) (2.20)

3. Para t → ∞, a seguinte inequa¸c˜ao se mantem: P (|θt

ijk− c

| ≥

qσ])≤ 1

q2, onde q≥ 0, onde σ ´e o desvio-padr˜ao ´e calculado por q

V arθt ijk

A prova do Teorema 1, assim como sua generaliza¸c˜ao para quando D possui dados falantes ´e encontrada em Cohen, Bronstein e Cozman (2001b) e implica em algumas afirma¸c˜oes:

• Quanto maior a taxa η maior a V arθt

ijk e portanto os valores da

s´erie s˜ao mais ruidosos;

• Quanto menor o valor de η mais lenta ´e a convergˆencia de θt ijk.

2.2.2.1.3 Voting EM - Adaptativo

Um dos pontos cr´ıticos do Voting EM ´e a determina¸c˜ao da taxa de aprendizagem η, pois a escolha do parˆametro varia de acordo com o dom´ınio de aplica¸c˜ao. Al´em disso, pode acontecer de um caso espe-cifico xk

i com configura¸c˜ao de pais pa j

i ser muito contante ou aparecer

raramente na base de dados. Com um η fixo a influˆencia dos dados nas CPT ´e sempre a mesma para todas as vari´aveis o que torna o algoritmo pouco gen´erico (LIU; LIAO, 2008a).

(56)

54

Como forma de lidar com o problema Cohen, Bronstein e Coz-man (2001a) prop˜oe o Voting EM - Adaptativo. Ele ´e baseado nos seguintes princ´ıpios, de acordo com o Teorema 1:

• A taxa de aprendizagem η deve ser reduzida quando se aproxima da convergˆencia;

• η deve ser aumentado quando h´a um erro grande entre os valores m´edios de θijk e θtijk;

• Um valor η ´e definido para cada paji sendo denominado ηij.

O m´etodo ´e baseado no Algoritmo 2, por´em o valor de ηij ´e

atualizado em cada intera¸c˜ao de tempo a partir do Teorema 1. Ele ´e descrito pelo Algoritmo 3 - sugere-se colocar um valor alto de ηij inicial

quando o dom´ınio ´e desconhecido e valores pequenos quando se trata de uma RB pr´e treinada.

O m´etodo utiliza trˆes parˆametros como entrada:

• q: parˆametro que define quantos desvios padr˜oes de erro ´e aceit´avel antes de se aumentar ηij;

• α: parˆametro que define o que ´e considerado convergˆencia para diminuir o ηij;

• m: parˆametro que define em qual propor¸c˜ao ηij ser´a aumentado

ou diminu´ıdo.

A variˆancia no m´etodo ´e calculada a partir da Equa¸c˜ao 2.19, substituindo t por δt e c∗por 0.5:

V ar[θtijk] =

ηij· 0.5(1 − 0.5)

2− ηij

· (1 − (1 − ηij)2δt+2) (2.21)

Cohen, Bronstein e Cozman (2001a) provam que ηij decresce de

forma proporcional `a (1/tn) onde tn´e o n´umero de vezes que P ai= paji,

o que leva `a uma convergˆencia assint´otica ´otima em algum m´aximo local.

2.2.2.2 MLE Online

O algoritmo MLE Online ´e uma adapta¸c˜ao do MLE convencional (Se¸c˜ao 2.2.1.1) para uma forma interativa de forma que T mude seu

(57)

55

Algoritmo 3 Voting EM Adaptativo 1: θ0← valores aleat´orios ou pr´e treinados

2: ηij ← η′ | 0 < η′≤ 1 (definidos aleatoriamente)

3: q← ? |q > 0 (definido pelo usu´ario) 4: α← ? |α << 1 (definido pelo usu´ario) 5: m← ? |m > 1 (definido pelo usu´ario) 6: t← 0

7: δt← 0

8: enquanto houver amostras fa¸ca 9: para cada Xi em X fa¸ca

10: obtenha o conjunto P ai

11: para cada paji em P ai fa¸ca

12: para cada xki em Xi fa¸ca

13: atualize θt+1ijk pela Equa¸c˜ao 2.14

14: fim para 15: se|θt+1ijk − E[θ t+1 ijk]| > q · σ t+1 ij ent˜ao 16: aumente ηij: ηij← ηij· m 17: δt← 0 18: sen˜ao 19: se ent˜ao(1− ηij)≥ α 20: diminua ηij: ηij← ηij· m−1 21: δt← 0 22: sen˜ao 23: δt← δt + 1 24: fim se 25: fim se 26: fim para 27: fim para 28: t← t + 1 29: fim enquanto

tamanho a cada intera¸c˜ao. Ou seja, a cada nova amostra o valor de T (tempo) ´e acrescido de uma unidade e a convergˆencia do m´etodo utiliza esse valor para determinar o quanto uma nova amostra influencia na CPT (taxa de aprendizagem).

´

E importante notar que esse algoritmo, assim como sua vers˜ao em batch, n˜ao possui suporte para dados missing.

Essa adapta¸c˜ao foi feita por Cohen, Bronstein e Cozman (2001b) e utiliza a seguinte regra de atualiza¸c˜ao:

(58)

56 θt ijk=              1 Nt ij + (1− 1 Nt ij)θ t−1

ijk , para P (pa j i|yt) = 1 e P (xki|yt) = 1 (1− 1 Nt ij)θ t−1

ijk , para P (pa j

i|yt) = 1 e P (xki|yt) = 0

θt−1ijk , caso contr´ario

(2.22) onde 1

Nt

ij possui fun¸c˜ao similar ao η e diminui de forma progressiva de acordo com a quantidade de dados. Essa abordagem ´e descrita pelo Algoritmo 4.

Algoritmo 4 MLE Online

1: θ0← valores aleat´orios ou pr´e treinados 2: t← 1

3: enquanto houver amostras fa¸ca 4: para cada Xi em X fa¸ca

5: obtenha o conjunto P ai

6: para cada paji em P ai fa¸ca

7: para cada xk

i em Xi fa¸ca

8: atualize θt

ijk pela Equa¸c˜ao 2.22

9: fim para

10: fim para

11: fim para 12: t← t + 1 13: fim enquanto

O m´etodo MLE Online n˜ao necessita de parametriza¸c˜ao inicial, pois ele determina a taxa de aprendizagem atrav´es da quantidade de registros no tempo.

2.3 CONSIDERAC¸ ˜OES SOBRE O ESTADO DA ARTE

Os trabalhos encontrados em Aprendizagem de Parˆametros em Redes Bayesianas foram divididos em quatro principais caracter´ısticas:

• Abordagem Online; • Suporte a dados missing; • Aspecto Generativo;

(59)

57

• Aspecto Discriminativo.

O Quadro 2.1 sintetiza os artigos encontrados, listando as prin-cipais caracter´ısticas de cada um deles. ´E feita tamb´em a compara¸c˜ao com o m´etodo proposto (EMFuzzyOnline) e foi destacado os dois m´etodos utilizados para compara¸c˜ao de desempenho do m´etodo pro-posto (Cap´ıtulo 4): de M´axima Verossimilhan¸ca (MLE), por ser o mais utilizado na literatura, e o Voting EM, no qual este trabalho foi base-ado.

Referências

Documentos relacionados

Meta Final 3) O aluno cumpre as habilidades de UM subdomínio de entre os seguintes de acordo com as normas definidas no Quadro de Referência N.º 1: PATINAGEM (PAT);

Meta Final 7) O aluno toca sozinho e em grupo, peças de diferentes formas, géneros, estilos e culturas, utilizando técnicas diferenciadas de acordo com a tipologia musical,

Meta Final 4) O aluno observa materiais, organiza-os segundo diferentes critérios e explica implicações da utilização excessiva e desregrada de recursos naturais; diferencia

O aluno explica as diferenças dos níveis de desenvolvimento, entre dois ou mais países, propondo medidas possíveis para as atenuar. Meta Final 9) O aluno recolhe informação

O aluno integra, nas suas descrições do passado desde a Pré-História ao século XIV d.C., várias dimensões históricas da organização, movimentações e interacções das

Meta Final 63) O aluno selecciona o conhecimento relevante para construir o texto. Metas intermédias até ao 2.º Ano. O aluno selecciona palavras ou frases relacionadas com o tópico

O aluno introduz sequências dialogais e descritivas na narrativa. Meta Final 63) O aluno transforma texto narrativo em texto para teatro (e.g.: episódio em cena). Metas a concluir

O aluno identifica efeitos de sentido produzidos por recursos estilísticos... Meta Final 32) O aluno distingue factos de opiniões perante informação textual convergente ou