• Nenhum resultado encontrado

Utilização de redes bayesianas como agrupador de classificadores locais e global.

N/A
N/A
Protected

Academic year: 2021

Share "Utilização de redes bayesianas como agrupador de classificadores locais e global."

Copied!
142
0
0

Texto

(1)

izacao de Redes Bayesianas como A g r u p a d o r

Classificadores Locais e Global

Leonardo Nogueira M a t o s

Tese de D o u t o r a d o submetida ao Programa de Pos-Graducao em Engen-haria Eletrica da Universidade Federal de Campina Grande c o m o parte dos requisites necessarios para obtencao do grau de D o u t o r em Ciencias no D o m f n i o da Engenharia Eletrica.

Area de Concentracao: Processamento da Informacao

Joao Marques de Carvalho, P h D . Orientador

Campina Grande, Parafba, Brasil

(2)
(3)

U T I L I Z A C A O D E R E D E S B A Y E S I A N A S C O M O A G R U P A D O R D E

C L A S S I F I C A D O R E S L O C A I S E G L O B A I S

L E O N A R D O N O G U E I R A D E M A T O S

Tese A p r o v a d a e m 25.10.2004

F L A V I O B O R T O L O Z Z I , Dr., P U C - P R

Componente da Banca

'\heix i/dh ^

V {

^ ^,

N E L S O N D E L F I N O D ' A V I L A M A S C A R E N H A S , Dr., U F S C A R

Componente da Banca

R O N E I M A R C O S D E M O R A E S , Dr., U F P B

Componente da Banca

F R A N C I S C O M A R C O S D E ASSIS, Dr., U F C G

Componente da Banca (Ansencnt Justificada)

I I E R M A

T I N S G O B I E S , Dr., U F C G

Componente aa Banca

C A M P I N A G R A N D E - PB

O U T U B R O - 2004

(4)

Dedicatoria

As pessoas a quern estive mais proximo durante o desenvolvimento do t r a b a l h o :

Alexsandra e Carolina, Erico, Aliane, A d r i a n o , Davi e Eduardo

(5)

Agradecimentos

P r i m e i r a m e n t e agradeco ao profressor Joao Marques por sua orientacao e t o d o auxilio que proporcionou para o desenvolvimento desta tese.

Aos m e m b r o s da banca pelas minuciosas revisoes realizadas no t e x t o , pela boa-vontade com que me receberam e me o r i e n t a r a m , pelas suas sugestoes e material bibliografico fornecido.

Aos colegas do L a b o r a t o r i o de Processamento de Imagens e Sinais que, sendo muitos, nao cito os nomes para nao ser enfadonho, bem como aos professores da P U C - P R ligados ao programa de cooperacao academica c o m o grupo de Analise e Classificacao de Sinais e Imagens da UFCG, pela convivencia e t r o c a de experiencias.

A o professor Luis Brunelli e demais colegas do D e p a r t a m e n t o de Ciencia da C o m p u t a c a o e Estati'stica da Universidade Federal de Sergipe pelo estfmulo e apoio prestado durante meu a f a s t a m e n t o para cursar o d o u t o r a d o .

A o Governo Federal do Brasil, no papel da Coordenacao de A p e r f e i c o a m e n t o de Pessoal de Nfvel Superior ( C A P E S ) , pelo suporte financeiro e pela manutencao do Portal de Periodicos.

A f u n c i o n a r i a Angela pelo excelente trabalho na secretaria da C O P E L E , especialmente durante os perfodos de greve.

As pessoas a quern faco a dedicatoria. A minha esposa e filha, por terem me acompanhado a cidade de Campina Grande. A Meu irmao A d r i a n o pelas palavras de incentivo e interesse em acompanhar a evolucao do t r a b a l h o . Aos meus pais e as pessoas que me apoiaram no retorno a cidade de A r a c a j u : meu t i o Eduardo e meus sogros.

(6)

Resumo

0 problema de classificacao em reconhecimento de padroes p o d e ser interpretado c o m o um problema de estimacao de uma distribuicao de probabilidade alvo. Trabalhos recentes a p o n t a m para sua modelagem c o m o uma soma ponderada de distribuicoes, t r a t a n d o - s e p o r t a n t o de uma abordagem p a r a m e t r i a , ja que pesos e parametros necessitam ser estimados. Neste t r a b a l h o a distribuicao alvo e aproximada sem realizar estimacao de parametros de uma d i s t r i b u i c a o m o d -elo. A d m i t i n d o - s e que a safda dos classificadores possam ser t r a t a d o s c o m o distribuicoes de probabilidades, utiliza-se uma rede Bayesiana c o m o i n s t r u m e n t o para realizar a c o m b i n a c a o de classificadores locais e g l o b a l . Em linhas gerais o objetivo do t r a b a l h o e apresentar uma m e t o d o l o -gia que estabelece c o m o realizar o p a r t i c i o n a m e n t o do espaco de a t r i b u t o s originando u m c o n j u n t o de classificadores e c o m o agrupa-los em uma estrutura que combina suas safdas.

U m estudo de caso foi desenvolvido para avaliar o desempenho do sistema proposto no re-c o n h e re-c i m e n t o de imagens de dfgitos manusre-critos, t e n d o sido o b t i d o resultados re-c o m p e t i t i v o s re-com os mais recentes mencionados na literatura.

(7)

Abstract

T h e classification problem in p a t t e r n recognition can be viewed as a probability d i s t r i b u t i o n e s t i m a t i o n task. Recent developments t r y t o model it as a weight sum of d i s t r i b u t i o n s w h i c h is a parametric approach, since weights and parameters should be estimated. In t h i s work t h e t a r g e t d i s t r i b u t i o n is reached w i t h o u t t h e need t o estimate parameters f r o m a model d i s t r i b u t i o n . Considering t h a t t h e o u t p u t o f classifiers are probability measurements, a Bayesian network is used t o c o m b i n e local and global classifiers. Briefly, t h e main objective o f this work is t o present a m e t h o d o l o g y t h a t establishes how t o partition t h e feature space in order t o generate a set o f classifiers and g r o u p t h e m in a framework t h a t combines their o u t p u t s .

A case study was developed for a h a n d w r i t t e n digit recognition application. T h e results reveal t h a t the proposed system is c o m p e t i t i v e w i t h t h e best classifiers pointed in t h e l i t e r a t u r e .

(8)

Sumario

1 I n t r o d u c a o 1 1.1 O b j e t o de estudo da tese 2 1.2 Contribuicoes deste t r a b a l h o 6 1.3 Organizacao geral do t r a b a l h o 8 2 R e d e s B a y e s i a n a s 9 2.1 F u n d a m e n t o s 9 2.1.1 Definicoes 10 2.1.2 Redes Bayesianas 12

2.2 Inferencia em redes Bayesianas 14 2.3 Aprendizado de redes Bayesianas 20

2.3.1 Aprendizado de probabilidades condicionais 2 1

2.3.2 Aprendizado da estrutura da rede 27 2.4 Redes Bayesianas c o m o classificadores 32

2.4.1 Classificador Bayesiano (Naive Bayesian Network) ( D u d a e Hart [33]) . . 32

2.4.2 Classificadores Bayesianos seletivos (Singh e Provan [104]) 33 2.4.3 Classificadores Bayesianos explorados por Friedman et al. [41] 33

2.4.4 Classificador Bayesiano explorado por Frey [37] 34

2.5 Conclusao 37

3 C o m b i n a c a o d e c l a s s i f i c a d o r e s 3 8

3.1 Dificuldades relacionadas com aprendizado de classificadores 38

3.2 C o m b i n a c a o de classificadores 44 3.2.1 Combinadores baseados em regras fixas 45

3.2.2 M e t o d o s de amostragem do c o n j u n t o de t r e i n a m e n t o 50

3.2.3 Combinadores baseados t r e i n a m e n t o 52

(9)

4 M e t o d o p r o p o s t o - t e o r i a 60 4.1 Segmentacao do espaco de a t r i b u t o s 60 4.1.1 Obtencao de - um 62 4.1.2 Identificacao de sm(a) 65 4.1.3 A l g o r i t m o de p a r t i c i o n a m e n t o 68 4.2 0 Sistema de t o m a d a de decisao 69

4 . 2 . 1 Obtencao da estrutura da rede 69 4.2.2 Obtencao das probabilidades condicionais 7 1

4.2.3 Calculo de inferencia 73

4.3 Conclusao 75

5 M e t o d o p r o p o s t o - a v a l i a c a o 7 6

5.1 As bases de padroes utilizadas 76 5.2 Definicao dos classificadores 80

5.2.1 A l g o r i t m o de particionamento do espaco de a t r i b u t o s e t r e i n a m e n t o dos

classificadores 8 1 5.2.2 Fixacao d o parametro k (/c-NN) 82

5.3 Avaliacao do processo de particionamento 86

5.4 Avaliacao do sistema de inferencia 92

5.5 Conclusao 92

6 E s t u d o d e c a s o - e x p e r i m e n t o c o m r e c o n h e c i m e n t o de dfgitos 95

6.1 Extracao de caracteristicas 96 6.1.1 M e t o d o de histogramas direcionais (Shi et al. [102]) 98

6.1.2 Histogramas direcionais c o m zoneamento 103 6.2 M e t o d o proposto x caracteristicas utilizadas 106

6.2.1 Avaliacao do procedimento para obtencao de u m 107

6.2.2 Avaliacao do procedimento para definicao de sm(a) 107

6.3 Comparacao c o m outros metodos 110 6.3.1 M e t o d o l o g i a de testes I l l 6.3.2 A l g o r i t m o s implementados 112 6.3.3 Resultados com a base reduzida 113 6.3.4 Resultados com a base expandida 115

6.4 Conclusao 115

7 C o n c l u s o e s e p e r s p e c t i v a s f u t u r a s 1 1 7

7.1 Conclusoes 117 7.2 Perspectivas f u t u r a s 118

(10)
(11)

Lista de Tabelas

5.1 Dimensao das bases avaliadas 77 5.2 Descricao dos sistemas i m p l e m e n t a d o s 83

5.3 D i s t r i b u i c a o das classes na base adult 86 5.4 Comparacao entre o m e t o d o proposto e outros algoritmos de aprendizado de maquina 92

6.1 D i s t r i b u i c a o de amostras na base N I S T (adaptado de Correia [25]) 96 6.2 Resultados o b t i d o s c o m classificadores que operaram sobre a base N I S T 97 6.3 Estatfsticas sobre o n u m e r o de particoes originadas por criterio de p a r t i c i o n a m e n t o 107

6.4 N o t a c a o empregada para representar m a t r i z de erros I l l 6.5 Parametros usados para construcao e t r e i n a m e n t o das redes neurais 112

6.6 Taxas de reconhecimento obtida c o m a base N I S T 113 6.7 Distancias normalizadas entre os coeficientes 114 6.8 M a t r i z de erros — T r e i n a m e n t o com 180000 amostras 115

(12)

Lista de Figuras

1.1 D i a g r a m a de blocos do m e t o d o proposto 5 2.1 Caminhos possiveis entre nos X e Z 11 2.2 Indepencia entre nos num c a m i n h o linear 12

2.3 P a r t i c a o de E e m relacao a X 14 2.4 P a r t i c i o n a m e n t o de u m D A G 16 2.5 C o n f i g u r a c a o de u m c o n j u n t o de nos usado para modelar aquisicao de probabilidades 2 1

2.6 Evolucao do a l g o r i t m o E M 25 2.7 Description Length em funcao da complexidade da rede 3 1

2.8 Classificador Bayesiano (Naive Bayesian Network) 33

2.9 Redes Bayesianas autoregressivas 35 2.10 Redes Bayesianas de m u l t i p l a s causas 36 3.1 Curvas de nivel de densidades conhecidas 39

3.2 Regioes de decisao 40 3.3 Analise do vies e variancia do erro empi'rico para tres m e t o d o s de regressao . . . 42

3.4 E x e m p l o de a g r u p a m e n t o de RN 44 3.5 Esquema de c o m b i n a c a o paralelo 46

3.6 M i s t u r a de Especialistas 53 3.7 Dilema vies-variancia ( a d a p t a d o de Johannes [62]) 58

4 . 1 S i m u l a c a o de p a r t i c i o n a m e n t o em I RP C I R2 6 1

4.2 Distribuicoes da entropia e do erro medio quadratico no espaco de a t r i b u t o s . . 64

4.3 D i a g r a m a de classificadores 69 4.4 I m p l e m e n t a c a o de uma regra de decisao em uma rede Bayesiana 70

4.5 C o n s t r u c a o da rede Bayesiana 7 1 4.6 Representacao m a t e m a t i c a da base de casos de uma rede Bayesiana c o m dois nos 72

4.7 M o d e l o s de inferencia avaliados 74 5.1 D i s t r i b u i c a o de padroes por classes (%) 79

(13)

5.3 P a r a m e t r o k x taxa de reconhecimento (base letter) 84 5.4 P a r a m e t r o k x taxa de reconhecimento (base musk) 84 5.5 P a r a m e t r o k x taxa de reconhecimento (base nursery) 85 5.6 P a r a m e t r o k x taxa de reconhecimento (base pageblocks) 85 5.7 P a r a m e t r o k x t a x a de reconhecimento (base pendigits) 85

5.8 Nos da rede Bayesiana associada a base adult 86 5.9 Instancias x particao x entropia (base adult) 88 5.10 Instancias x particao x entropia (base letter) 88 5.11 Instancias x particao x entropia (base musk) 88 5.12 Instancias x particao x entropia (base nursery) 89 5.13 Instancias x particao x entropia (base pageblocks) 89 5.14 Instancias x particao x entropia (base pendigits) 89 5.15 Instancias x particao x M S E (base adult) 90 5.16 Instancias x particao x M S E (base letter) 90 5.17 Instancias x particao x M S E (base musk) 90 5.18 Instancias x particao x M S E (base nursery) 9 1 5.19 Instancias x particao x M S E (base pageblocks) 9 1 5.20 Instancias x particao x M S E (base pendigits) 9 1

6.1 Normalizacao em escala 98 6.2 Conversao de binario para nivel de cinza 99

6.3 Imagens da fase e m a g n i t u d e 99 6.4 Histograma direcional calculado para um bloco da i m a g e m 101

6.5 F i l t r a g e m e s u b - a m o s t r a g e m da m a t r i z de histogramas 102 6.6 llustracao do sentido de profundidade i n t r o d u z i d o pelo c o n t o r n o 103

6.7 Imagens equidistantes: d(a,b) = d(a, c) 104 6.8 Caracteristicas extrafdas do contorno da imagem 105

6.9 Z o n e a m e n t o aplicado a imagens retangulares 106 6.10 Curva da c o n t a g e m de padroes por particao gerada 108 6.11 C o n t a g e m do n u m e r o de padroes aprendidos e nao-aprendidos em % 109

6.12 D i a g r a m a de classificadores originado do t r e i n a m e n t o 113 7.1 Redes Bayesianas construfdas a partir do diagrama de classificadores 119

(14)

Capftulo 1

Introducao

U m dos grandes desafios da ciencia no inicio do seculo X X I e desenvolver maquinas que executem com habilidade tarefas que os seres humanos realizam corriqueiramente, tais c o m o interpretar informacoes visuais e auditivas. As maquinas tern sido utilizadas c o m eficiencia para processar grandes volumes de informacao, c o m o os computadores c o m sistemas de banco de dados, ou para processar em larga escala p r o d u t o s m a n u f a t u r a d o s , c o m o os robos em aplicacoes industrials, mas o sucesso de sua aplicacao em reconhecimento de padroes e ainda bastante incipiente se c o m p a r a d o c o m os seres humanos. Uma crianca em idade de alfabetizacao e capaz de identificar letras e dfgitos isolados em diferentes texturas e variacoes de f o r m a t o e escala, c o m o em rotulos comerciais e em livros infantis, melhor do que os mais sofisticados sistemas de reconhecimento de caracteres oticos disponfveis. Uma crianca ainda m u i t o cedo e capaz de atender a uma ligacao telefonica, o que so e realizado a u t o m a t i c a m e n t e quando o ser-humano fornece para a maquina codigos digitados no teclado do aparelho. A eficiencia dos computadores em aplicacoes tradicionais deve-se ao f a t o de que as taxas de processamento sao m u i t o elevadas e as condicoes de operacao bastante uniformes, a localizacao de u m registro em um banco de dados, por exemplo, p o d e ser feita r a p i d a m e n t e porque a frequencia dos processadores e elevada e porque a representacao binaria da chave de busca e bastante uniforme, de tal m o d o que uma variacao no estado de um bit resulta em uma chave d i s t i n t a . Em princi'pio, para o c o m p u t a d o r recuperar uma imagem em uma base de dados c o m a mesma rapidez e precisao seria necessario que as imagens comparadas fossem capturadas com as mesmas condicoes de luminosidade e p o s i c i o n a m e n t o da camera. A o c o n t r a r i o dos computadores, os sistemas naturais de reconhecimento de padroes nao sao baseados na rfgida arquitetura binaria nem executam operacoes de f o r m a puramente sequencial, por esta razao, apesar das taxas de transferencia de dados na mente humana serem m u i t o menores, os seres humanos sao capazes de reconhecer padroes c o m m u i t o mais eficiencia. Desenvolver sistemas c o m p u t a c i o n a i s que i m i t e m a capacidade dos seres humanos de reconhecer padroes e p o r t a n t o u m grande desafio. Este e o objeto de estudo de segmentos especi'ficos nos domfnios da Inteligencia A r t i f i c i a l ( I A ) , Processamento de Imagens e Estatfstica e constitui uma

(15)

das principals motivacoes para realizacao desta tese.

A o longo deste caftulo sera apresentado em maiores detalhes o objeto de estudo da tese, apresentado na Secao 1.1, as c o n t r i b u t e s do t r a b a l h o , Secao 1.2, e a organizacao do t e x t o c o m o um t o d o , Secao 1.3.

1.1 Objeto de estudo da tese

Em reconhecimento de padroes, o problema de classificacao esta relacionado c o m a construcao de um modelo probabilistic© que relaciona u m c o n j u n t o de a t r i b u t o s , I RP C l Rn (o espaco de

a t r i b u t o s ) , e um c o n j u n t o discreto de m possfveis classes, f2 = {Wt}JLi- ^e f °r em conhecidas

informacoes estatfsticas completas sobre as distribuicoes de x G 1RP para cada classe i, i =

1 . . . m, isto e, P(x\tul), e n t a o , a u m padrao de teste x de classe desconhecida pode ser atribuida

a categoria que maximiza a distribuicao P(ut\x), obtida pela f o r m u l a de Bayes, isto e:

u* = aigmax{P{ut\x)} x 6 ] RP (1.1)

lift c o m

P(x\ut)PM

P M x ) =

t ^ m m

(L2)

O valor de to* o b t i d o pelas Equacoes (1.1) e (1.2) minimiza o erro de classificacao, quando o custo associado a uma classificacao errada e igual para todas as classes. P o r t a n t o OJ* e considerado u m valor o t i m o ( W e b b [ 1 1 5 ] ) . Na pratica, e n t r e t a n t o , c o m o as probabilidades P(ut) e P(x\ut)

nao sao conhecidas, o calculo de UJ* nao pode ser realizado exatamente. Uma grande variedade de solucoes para realizacao do calculo aproximado de ( 1 . 1 ) foram propostas desde finais dos anos 1950. A l g u m a s referencias realizam uma cobertura ampla, resumindo as diversas linhas nesta area, c o m o em Jain et al. [60], W e b b [115], Schalkoff [100] e Duda e Hart [33]. De u m m o d o geral, a distribuicao alvo e aproximada atraves de u m processo de t r e i n a m e n t o que consiste no aprendizado estatistico de P ( - ) a partir de um c o n j u n t o amostral.

0 processo de t r e i n a m e n t o realiza um p a r t i c i o n a m e n t o do espaco de atributos em segmentos chamados regioes de decisao. Uma maneira de estabelecer estas regioes pode ser atraves do emprego de funcoes discriminantes, denotadas por f(x\ 9) em que 9 corresponde a um c o n j u n t o de parametros aprendidos d u r a n t e o t r e i n a m e n t o . Este aprendizado consiste de f a t o em um processo de o t i m i z a c a o em 9 de uma funcao objetivo que ajusta / ( • ) aos dados de t r e i n a m e n t o . A l g u m a s funcoes objetivo mencionadas na literatura sao a minimizacao do erro medio quadratico, a maximizacao da funcao logarftmica de verossimilhanca e a minimizacao da entropia cruzada ( W e b b [115]). Q u a n t o ao t i p o da funcao discriminante, pode-se ter funcoes lineares e nao-lineares. Sendo / ( • ) linear, pode-se expressa-la c o m o

(16)

/ ( x ; 0 ) = $ ^ 0 , + 0o (1.3) ou resumidamente c o m o f(x:0) = x'T6,T, sendo x' e 0' os vetores a u m e n t a d o s x'T =<

xT, 1 > T e 0/ T = < 0T, 0O > • Alguns metodos para obtencao de 0 sao p o p u l a r m e n t e

conheci-dos, dentre eles pode-se citar: redes neurais Perceptron (Haykin [ 5 5 ] ) , funcao d i s c r i m i n a n t e de Fischer (Cover e Hart [26]) e maquinas de vetores de suporte ( V a p n i k [112]). A f i m de discretizar o resultado do p r o d u t o interno, a d a p t a n d o - o ao problema de classificacao e c o m u m aplicar sobre ele a funcao logistica (logistic function) ou sigmoide, que tern o efeito de mapear a entrada para valores m u i t o proximos de uma sai'da binaria, conservando propriedades i m p o r t a n t e s c o m o con-t i n u i d a d e e diferenciabilidade. Parcon-ticularmencon-te, em se con-t r a con-t a n d o de u m problema de classificacao binaria, a d m i t i n d o que x seja n o r m a l m e n t e distribufdo para as classes e w2 e supondo que

suas matrizes de covariancia sejam iguais, a distribuicao de ut dado x corresponde a aplicacao

da funcao logistica sobre uma c o m b i n a c a o linear de x para um c o n j u n t o de pesos o t i m o s 9lt

para cada classe ul (Jordan [ 6 4 ] ) . Embora esta seja uma propriedade de u m caso particular,

de um m o d o geral a funcao logistica tern sido usada heuristicamente c o m o f e r r a m e n t a de dis-cretizacao em sistemas de classificacao. A c o n t r a - p a r t e da funcao logistica para o problema de classificacao m u l t i n o m i a l e a funcao softmax (Bridle [13], Bishop [ 7 ] ) , que assim c o m o a funcao logistica preserva propriedades de c o n t i n u i d a d e e diferenciabilidade aplicando-se a u m problema de classificacao com m > 2 classes. A expressao da funcao softmax e dada pela equacao:

Funcoes discriminantes nao linear, obtidas pela i n t r o d u c a o de u m t e r m o nao linear em ( 1 . 3 ) , podem ser expressadas pela forma geral

/ ( x ; 6 ^ ) = ^ 0 ^ ( z ; / x O + 0; O J « 1 , . . . , C (1.5)

i

em que 6 e JJL sao parametros de / ( • ) e d(-) e uma funcao nao-linear de x. Existem diferentes tipos de funcoes discriminantes nao-linear, associadas a diferentes metodos citados na literatura, tais c o m o : redes neurais m u l t i c a m a d a (multilayer perceptron) funcoes de bases radiais, maquinas de vetores de suporte nao-lineares, dentre outros (Haykin [55], W e b b [115]). De u m m o d o geral estes metodos diferem entre si pelo t i p o de funcao nao-linear e pelo p r o c e d i m e n t o de busca empregados para obtencao dos parametros.

Uma outra categoria de m e t o d o s de reconhecimento de padroes procura estabelecer as regioes de decisao realizando u m processo de divisao hierarquica do espaco de a t r i b u t o s . Arvores de de-cisao (Classification and Regression Trees — CART) ( B r e i m a n et al. [11]) e M A R S (Multivariate Adaptive Regression Spline) (Friedman [39]) sao exemplos destes metodos. Arvores de decisao

(17)

realizam uma divisao recursiva do espaco 1 RP em regioes disjuntas, que sao associadas as classes

dos padroes. 0 m e t o d o M A R S t a m b e m realiza um p a r t i c i o n a m e n t o recursivo de I RP, mas ao

inves de estabelecer fronteiras rfgidas, a i n t r o d u c a o de uma funcao de interpolacao permite que ocorra um e n t r e l a c a m e n t o entre estas regioes, suavizando as fronteiras de separacao.

Uma abordagem n a t u r a l para resolver o problema de classificacao consiste em realizar a esti-macao da probabilidade a posteriori P(x\u) a partir de u m c o n j u n t o de observacoes, admitindo-se por hipotese que P(-) seja regida por uma distribuicao modelo, t i p i c a m e n t e assumida c o m o sendo a distribuicao Gaussiana ou N o r m a l . Esta abordagem esta localizada em uma categoria de meto-dos estatfsticos conhecimeto-dos c o m o metometo-dos parametricos pois, c o m base em uma amostra de P('), realiza-se u m t r e i n a m e n t o estatistico objetivando-se estimar os parametros da distribuicao modelo. A adocao desta linha, e n t r e t a n t o , baseia-se em uma hipotese bastante restritiva. Em uma aplicacao de reconhecimento de imagens de caracteres oticos, por exemplo, a distribuicao dos padroes associados a classe do d f g i t o sete pode ter diferentes concentracoes no espaco de atributos, relativas a grupos em que ocorre a escrita em estilo anglicano (imagens sem traco transversal) ou relativas a grupos que u t i l i z a m a escrita em estilo latino (imagens com t r a c o transversal). Neste exemplo, P(x\u) possui mais de uma moda sendo, p o r t a n t o , p o u c o apropri-ado que seja aproximada por uma distribuicao Gaussiana.

A f i m de minimizar as limitacoes impostas pela hipotese de normalidade, pode-se a d m i t i r que a distribuicao alvo seja resultante de u m modelo de mistura gaussiana ( J o r d a n e Jacobs [65]) ou que a regra de decisao apresentada na Equacao (1.1) possa ser realizada atraves de estimacoes nao-parametricas de P(u\x). 0 m e t o d o dos k vizinhos mais proximos (/c-NN) e um exemplo conhecido de m e t o d o nao-parametrico. Uma rede neural c o m funcao de ativacao softmax (Bridle [13]) e t a m b e m um m e t o d o nao-parametrico, ambos realizam a estimacao de P(u\x) sem requerer a hipotese de que esta se ajuste a uma distribuicao m o d e l o .

Este t r a b a l h o apresenta uma forma de implementar a regra de decisao expressa na Equacao (1.1) c o m base em u m m o d e l o de m i s t u r a , isto e, procura-se c o m p o r a distribuicao alvo como uma soma ponderada de u m c o n j u n t o de outras distribuicoes. Estas distribuicoes sao, por sua vez, estimacao nao-parametrica de P(u\x) em regioes localmente definidas no espaco de a t r i b u t o s . Uma vez que P(LJ\X) e de f a t o a sai'da de um classificador, o modelo de mistura proposto compara-se a u m m e t o d o de c o m b i n a c a o de classificadores ( K i t t l e r et al. [ 6 9 ] ) .

A literatura a p o n t a duas abordagens para o m o d o c o m o classificadores p o d e m ser combinados: abordagem estatica e abordagem baseada em t r e i n a m e n t o . Na abordagem estatica as regras de combinacao sao fixas e p o r t a n t o conhecidas a priori. As regras da soma, p r o d u t o e v o t o m a j o r i t a r i o ( K i t t l e r e t al. [69]) sao t i p i c a m e n t e regras estaticas pois independentemente dos valores originados pelos classificadores elas se aplicam da mesma f o r m a . Neste caso o combinador nao necessita ser t r e i n a d o para aprender a regra de combinacao. Na segunda abordagem o combinador e t r e i n a d o c o m base nas safdas dos classificadores para encontrar uma regra de

(18)

combinacao o t i m a . Se o espaco de saida dos classificadores fornece medicoes da probabilidade a posteriori de u dado x entao a construcao de u m combinador que i m p l e m e n t a a regra de decisao apresentada na Equacao ( 1 . 1 ) , realiza efetivamente a composicao de uma distribuicao de probabilidade complexa e f a t o r a d a .

A proposta deste t r a b a l h o e apresentar um m e t o d o de combinacao de classificadores baseado em t r e i n a m e n t o em que as saidas dos classificadores, tratadas c o m o probabilidades, sao sucessi-vamente refinadas e combinadas, c u l m i n a n d o em uma unidade que resume as safdas produzidas em t o d a s etapas anteriores, Figura 1.1. A regra de combinacao e i m p l e m e n t a d a e m uma rede Bayesiana (Jensen [ 6 1 ] ) . A m o t i v a c a o em usar uma rede Bayesiana ocorreu em razao desta ser u m m e t o d o nao-parametrico que realiza eficientemente a estimacao de uma distribuicao de probabilidade complexa, um problema em geral de complexidade n a o - p o l i n o m i a l . Seu uso c o m o m e t o d o de classificacao foi investigado em diversos trabalhos c o m o em Friedman et al. [41], Sing e Provan [104], Ezawa e Schermann [35] e Frey [37]. E n t r e t a n t o seu uso e mais desta-cado em aplicacoes nas quais relacoes de causa e efeito sao bem caracterizadas, c o m o aplicacoes medicas (Olesen et al. [66], H a m i l t o n et al. [52]) e analise financeira ( A b r a m s o n [ 1 ] ) . D o ponto-de-vista da comunidade de I A, uma rede Bayesiana e vista c o m o u m sistema especialista baseado em regras em que os valores verdade, quantificados numa escala c o n t m u a e n t r e 0 e 1 , sao associados a probabilidades. Sob esta perspectiva o combinador proposto pode ser entendido c o m o um sistema especialista, uma visao que simplifica o e n t e n d i m e n t o do m e t o d o .

P3(cj|a:) P4(u>\x)

mm

mm

P2{UJ\X) P2{UJ\X) j* = a r g max{ P(u\x)}

Estimativa individual de P(LU\X]

(19)

1.2 C o n t r i b u t e s deste trabalho

• U m m e t o d o d e c o m b i n a c a o de c l a s s i f i c a d o r e s construi'do de m o d o a d e s t a c a r as s u p e r i o r i d a d e s i n d i v i d u a i s d o s s e u s c o m p o n e n t e s Redes neurais do t i p o

Percep-tron m u l t i - c a m a d a sao aproximadores de funcoes que, q u a n d o concebidas c o m u m numero suficientemente grande de neuronios na camada escondida, podem aproximar ao grau de precisao desejado qualquer funcao (Li [78], Leshno et al. [ 7 7 ] ) . Q u a n d o treinadas com funcao de ativacao softmax ou com u m c o n j u n t o de t r e i n a m e n t o suficientemente grande po-dem aproximar satisfatoriamente uma distribuicao de probabilidade ( B r i d l e [13], Gish [49],

Ruck et al. [ 9 7 ] ) . F o r m a m , p o r t a n t o , uma solucao bastante apropriada para o problema de classificacao de padroes. Le Cun [75] aponta redes neurais c o m o sendo o m e t o d o de aprendizado baseado em gradiente mais bem sucedido para area de reconhecimento de padroes em espacos de grande dimensao, em particular para area de reconhecimento de manuscritos. E n t r e t a n t o , estas redes t a m b e m apresentam algumas limitacoes. Por um lado, o processo de t r e i n a m e n t o e f o r t e m e n t e influenciado pela ocorrencia de regioes planas e mi'nimos locais na superfi'cie de erro. A l e m disto, a escolha do n u m e r o de neuronios da camada escondida e crftica, se m u i t o pequeno resulta em baixa capacidade de predicao, se m u i t o grande torna a rede instavel. M e t o d o s de aprendizado local (Friedman [40], Peng and Bhanu [89]) procuram m i n i m i z a r estas limitacoes pelo aprendizado da funcao de predicao em s u b c o n j u n t o s do espaco de a t r i b u t o s . A aproximacao da funcao de predicao em uma pequena vizinhanca pode ser realizada por u m p o l i n o m i o de baixa o r d e m , pois os termos de mais alta ordem p o d e m ser truncados em sua expansao por uma serie de Taylor. Como conseqiiencia, em uma pequena vizinhanca o erro de aproximacao e reduzido. Exemplos de m e t o d o s de aprendizado local sao o m e t o d o dos k vizinhos mais proximos e outros baseados em instancia (Aha et al. [3]) e regressao localmente ponderada (locally weight regression) (Atkeeson et al. [6]). M e t o d o s de aprendizado local, por sua vez, apresentam desvantagens por requererem a realizacao de uma busca por k instancias mais proximas de um padrao de teste. Este procedimento t a n t o demanda u m grande esforco c o m p u t a c i o n a l , uma vez que em ] Rn-2 nao existe nenhum procedimento de ordenacao conveniente e rapido,

q u a n t o demanda grande espaco de armazenamento, pois e necessario m a n t e r uma memoria de instancias usadas no t r e i n a m e n t o .

Nesta tese e proposta uma estrategia original de geracao e combinacao de classificadores global e locais que reforca as superioridades individuais de cada um e m i n i m i z a suas l i m i -tacoes. A geracao dos classificadores locais e orientada por u m processo de particionamento do espaco de a t r i b u t o s que restringe o espaco em que os mesmos sao definidos a uma vizin-hanca em I RP, c o n t r i b u i n d o desta forma para minimizar o esforco c o m p u t a c i o n a l envolvido

(20)

atendendo um criterio de o t i m a l i d a d e , o que declina a c o n t r i b u i c a o de predicoes c o m erro e reforca a de predicoes acertadas.

• U s o de r e d e s B a y e s i a n a s e m u m a a p l i c a c a o de c o m b i n a c a o de c l a s s i f i c a d o r e s

Apesar do emprego de redes Bayesianas, para classificacao de padroes ter sido investigado em diversos trabalhos, seu uso c o m o agrupador de classificadores e uma linha pouco ex-plorada na literatura ( W e b b [115], pp 289 - 2 9 0 ) . Esta tese explora a utilizacao de redes Bayesianas c o m o agrupador de classificadores e propoe procedimentos de aprendizado da rede adaptados para o problema em f o c o . A utilizacao do sistema em u m problema de reconhecimento de imagens de digitos manuscritos produziu bons resultados numericos, d e m o n s t r a n d o a viabilidade de construir um sistema complexo a partir de classificadores simples, adequado para t r e i n a m e n t o com grandes bases de dados.

• P r o p o s i c a o de u m s i s t e m a c o n e x i o n i s t a c u j a a r q u i t e t u r a e a j u s t a v e l e m f u n c a o do p r o b l e m a 0 p r o c e d i m e n t o de particionamento do espaco de a t r i b u t o s define regioes que

sao associadas a classificadores locais. Para realizar uma predicao unica os classificadores conectam-se entre si f o r m a n d o a rede Bayesiana, cuja arquitetura depende da complexidade do problema, q u a n d o maior a dificuldade em aprender os dados de t r e i n a m e n t o mais c o m -plexa torna-se sua arquitetura. Esta abordagem limita a interferencia de um especialista h u m a n o e m configurar parametros livres associados aos classificadores, tais c o m o a especi-ficacao do n u m e r o de neuronios e a quantidade de camadas escondidas em uma rede M L P , possibilitando a criacao de u m sistema complexo a partir de classificadores simples como redes Perceptron e classificadores locais /c-NN.

• A p r e s e n t a c a o de u m p r o c e d i m e n t o para e x t r a c a o de c a r a c t e n ' s t i c a s d e i m a g e n s de dfgitos m a n u s c r i t o s i s o l a d o s No estudo de caso realizado no Capftulo 6 foi

apresen-t a d o u m a l g o r i apresen-t m o de exapresen-tracao de caracapresen-terisapresen-ticas para processamenapresen-to de imagens de digiapresen-tos manuscritos inspirado no modelo biologico. 0 vetor de a t r i b u t o s e construfdo levando-se em c o n t a a imagem do c o n t o r n o , admitindo-se que estes pontos possuam t o d a informacao necessaria para a tarefa de classificacao. A motivacao de se trabalhar c o m a imagem do c o n t o r n o deve-se ao f a t o de que o sistema visual h u m a n o e seletivo as componentes es-paciais de alta freqiiencia ( p o n t o s de borda em uma imagem m o n o c r o m a t i c a ) , que sao f u n d a m e n t a l s para reconhecimento de formas e do sentido de profundidade. Os resulta-dos o b t i d o s nos experimentos f o r a m c o m p e t i t i v o s quando compararesulta-dos aos publicaresulta-dos na literatura especializada, o que revela a boa capacidade do e x t r a t o r de caracteristicas em melhorar a separabilidade entre as classes.

(21)

1.3 Organizafao geral do trabalho

Para abordar os assuntos t r a t a d o s , organizou-se o t e x t o da seguinte f o r m a : os C a p i t u l o s 2 e

3 realizam uma revisao de literatura versando, respectivamente, sobre redes Bayesianas e c o m

-binacao de classificadores; o Capi'tulo 4 apresenta o m e t o d o proposto em um nfvel de abstracao mais elevado, a b o r d a n d o aspectos teoricos; o Capi'tulo 5 realiza uma abordagem pratica, faz-se experimentos c o m diversas bases de padroes, comparase os resultados o b t i d o s c o m o u t r o s m e t o -dos e procura-se identificar pontos positivos e negativos da proposta; o Capi'tulo 6 realiza um estudo de caso em reconhecimento de imagens de digitos manuscritos e o Capi'tulo 7 c o n t e m consideracoes gerais sobre a tese e apresenta linhas para desenvolvimentos f u t u r o s .

(22)

Capi'tulo 2

Redes Bayesianas

Este capi'tulo apresenta uma revisao teorica sobre redes Bayesianas. Sao discutidos os princi-pals aspectos relacionados c o m o aprendizado e uso destas redes e apresenta-se o a l g o r i t m o de inferencia usado posteriormente no m e t o d o de combinacao de classificadores proposto. 0 capi'tulo esta organizado da seguinte f o r m a : a Secao 2.1 apresenta definicoes e alguns conceitos basicos sobre teoria de probabilidades e grafos empregados ao longo das outras secoes; a Secao 2.1.2 ap-resenta o a l g o r i t m o de inferencia usado no m e t o d o proposto no Capi'tulo 4 e discute os principals aspectos relacionados c o m o aprendizado destas redes; a Secao 2.4 discute a utilizacao de redes Bayesianas c o m o classificadores revisando alguns dos principals trabalhos na area; a Secao 2.5 encerra o capi'tulo c o m conclusoes gerais sobre o conteudo apresentado.

2,1 Fundamentos

O f o r m a l i s m o da teoria de probabilidades t a l c o m o se conhece a t u a l m e n t e se deve a funda-mentacao axiomatica de K o l m o g o r o v ( K o l m o g o r o v [70]), baseada em teoria dos c o n j u n t o s . 0 t r a b a l h o de K o l m o g o r o v , publicado originalmente em alemao no ini'cio do seculo X X , estendeu a nocao de probabilidade baseada numa interpretacao frequencista, p e r m i t i n d o associa-la a u m numero que mede incerteza. Na abordagem frequencista, o conceito de probabilidade e inter-pretado c o m o o caso l i m i t e de uma frequencia relativa associada a um n u m e r o de observacoes i n f i n i t a m e n t e longo de u m experimento aleatorio. Na abordagem axiomatica este conceito pode t a m b e m ser relacionado c o m uma conjectura ou avaliacao subjetiva. Neste caso a probabilidade expressa uma nocao de chance que pode nao ter nenhuma associacao com u m evento do qual se possa extrair uma frequencia relativa, por exemplo, a probabilidade de que Isaac N e w t o n soubesse j o g a r xadrez. Esta segunda abordagem e estudada em Inteligencia A r t i f i c i a l em areas que

procu-ram reproduzir o m o d o c o m o os seres-humanos realizam racioci'nio baseado em c o n h e c i m e n t o incerto. Redes Bayesianas sao um t i p o de sistema especialista em que utiliza-se probabilidades para quantificar a certeza ou valores verdade das assertivas. 0 sistema manipula fatos novos e

(23)

o conhecimento armazenado em sua base apoiado na teoria de probabilidades. Rede Bayesiana e u m t i p o de sistema especialista que procura imitar o modo c o m o os seres-humanos c o m b i n a m conhecimentos novos e adquiridos para fazer novas conjecturas. A informacao, expressa como probabilidade, e utilizada para atualizar o conhecimento existente atraves do Teorema de Bayes, apresentado abaixo.

T e o r e m a 1 ( B a y e s ) Dados dois eventos E e F tais que P{E) / O e P(F) ^ 0, tem-se que:

P(E\F) = ™ M (2.1)

0 Teorema de Bayes e visto como u m i n s t r u m e n t o de atualizacao de c o n h e c i m e n t o quando novos fatos sao apresentados ao sistema. Por relacionar probabilidades a priori, P(E), com probabilidades a posteriori, P(E\F), este teorema pode ser usado para atualizar o conhecimento sobre um determinado d o m f n i o , representado pelo evento E, quando u m novo conhecimento e aprendido, representado pelo evento F. 0 m o d o c o m o a base de conhecimento e armazenada e c o m o u m conhecimento novo e usado para atualizar a base existente t a m b e m se apoia em alguns conceitos de teoria dos grafos. Estes conceitos estao definidos na Secao 2 . 1 . 1 , que realiza uma rapida cobertura de teoria dos grafos voltada especificamente para o t r a t a m e n t o de redes Bayesianas.

2.1.1 Deftnif;oes

Esta secao apresenta algumas definicoes que serao usadas posteriormente ao longo do capi'-t u l o . Considere inicialmencapi'-te a capi'-t e r m i n o l o g i a empregada para descricao de grafos. U m grafo nao-direcionado 9 = { V , £ } e f o r m a d o por um c o n j u n t o f i n i t o e nao vazio de vertices ou nos V, representando variaveis de u m domfnio, e um c o n j u n t o de pares nao-ordenados de vertices £ , chamados arcos. Um grafo direcionado e t a m b e m formado por um c o n j u n t o de vertices e arcos, e n t r e t a n t o , os arcos c o n s t i t u e m pares ordenados de vertices. Na representacao grafica de um grafo ordenado os vertices sao representados como ci'rculos e os arcos c o m o setas ligando os ci'rculos. A existencia de um arco (A, B) exprime o sentido de adjacencia entre os nos A e B, no diagrama deste grafo havera uma seta com origem no no A e t e r m i n a c a o no no B. 0 no na origem do arco e c h a m a d o pai e aquele na terminacao e chamado filho. A extensao destas relacSes originam outras mais abrangentes que definem os conceitos de ancestral e descendente. Dados dois nos distintos A e B, se A e pai de B ou se, recursivamente, A e pai do pai de B entao A e d i t o ser ancestral de B e B descendente de A. Chama-se caminho entre dois nos A

(24)

D e f i n i c a o 1 ( D A G — G r a f o D i r e c i o n a d o e A c f c l i c o ) Um grafo direcionado e acfclico, chamado

DAG (do ingles Directed Acyclic Graph J, e um grafo direcionado que nao contem ciclos.

D e f i n i c a o 2 ( P o l i a r v o r e ( p o l y t r e e ) ) Chama-se poliarvore (do ingles p o l y t r e e j um DAG

uni-camente conectado, isto e, um DAG que, desconsiderando o sentido dos arcos, nao contem ciclos.

D e f i n i c a o 3 ( C o n d i c a o de M a r k o v ) Dado um grafo S = { V , £ } no qual V associa-se a

var-iaveis aleatorias de um dado domfnio. 9 e dito satisfazer a condicao de Markov se, para um no Xlt

chamando NDt o conjunto de nos nao-descendentes de Xu tem-se que Xx e condicionalmente

independente de NDt dado o estado de seus pais, denotado por Pat. Isto e

P(Xt\Pati NDt) = P(Xl\Pal) (2.2)

A condicao de M a r k o v e utilizada para caracterizar o modelo grafico de u m a distribuicao de probabilidade c o n j u n t a . Em B u n t i n e [16] e realizada uma cobertura ampla sobre modelos graficos dentre os quais se inclui redes Bayesianas e cadeias de M a r k o v . Em se t r a t a n d o de redes Bayesianas, relacoes de independencia condicional podem ser estabelecidas considerando o conceito de d-separcao. Este c o n c e i t o , dentre outros, serao abordados a seguir. Considere deste p o n t o em diante que os nos dos grafos t r a t a d o s sejam associados a variaveis aleatorias discretas.

D e f i n i c a o 4 ( E v i d e n c i a ) Dado um grafo 9 = { V , £ } , chama-se evidencia o conjunto de nos

instanciados, isto e, nos em que se conhece o estado das variaveis. Uma evidencia e denotada por E C V, com E = {Xl\Xl = xtk}.

(a) Linear (b) Convergente (c) Divergente

(25)

D e f i n i c a o 5 ( c a m i n h o d - c o n e c t a d o ) Dada uma evidencia, E, o caminho entre dois nos, X

e Z, e dito ser d-conectado (conexao de dependencia) em relacao a E se uma das condicoes abaixo se verificarem

1. 0 caminho entre X e Z e linear ou divergente (Figuras 2.1(a) e 2.1(c)) e nao possui nos em E.

2. 0 caminho entre X e Z e convergente (Figura 2.1(b)) e os nos no interior do caminho ou um de seus descendentes esta contido em E.

D e f i n i c a o 6 ( n o s d - s e p a r a d o s ) Dada uma evidencia, dois nos sao ditos ser d-separados

(sep-aracao de dependencia) se nao existir nenhum caminho d-conectado que os una.

0 conceito de separacao p e r m i t e identificar a existencia de independencia condicional entre variaveis aleatorias numa rede Bayesiana. Uma forma de independencia se verifica q u a n d o num c a m i n h o linear u m dos nos em seu interior esta no c o n j u n t o de evidencia. Esta situacao, ilustrada na Figura 2.2, indica que independentemente do estado da variavel X, dado que seja conhecido o estado do ascendente i m e d i a t o de Y, a probabilidade de Y nao e mais inflenciada por X e depende unicamente do valor de seu ascendente, assim X e Y sao independentes dado E. Posto desta forma, pode-se apresentar a definicao de independencia em redes Bayesianas c o m o apresentado em Pearl [88].

D e f i n i c a o 7 ( I n d e p e n d e n c i a e n t r e n o s ) Dado uma evidencia, E, diz-se que dois nos sao

in-dependentes em relacao a E se forem d-separados.

r ' o )

Figura 2.2: Indepencia entre nos num c a m i n h o linear

2.1.2 Redes Bayesianas

Uma rede Bayesiana, denotada c o m o B, e um modelo grafico ( B u n t i n e [16]) para

repre-sentacao da probabilidade c o n j u n t a de u m g r u p o de n variaveis aleatorias U = {X\,..., Xn).

Embora estas variaveis possam ser continuas, este estudo aborda apenas o caso em que U contem somente variaveis aleatorias discretas, tendo em vista que no m e t o d o proposto no Capi'tulo 4 a

(26)

rede utilizada c o n t e m somente nos discretos. 0 modelo e c o m p o s t o por duas partes: uma es-t r u es-t u r a , represenes-tada por Bs, e u m c o n j u n t o de probabilidades, denotado c o m o BP. A estrutura

de uma rede Bayesiana consiste em um DAG no qual os nos representam variaveis aleatorias e os arcos relacoes de dependencia condicional entre eles. 0 sentido dos arcos d e n o t a m relacoes de causalidade. Assim, se u m arco possui origem em Xx e t e r m i n a c a o em X2, admite-se que

Xi e causa de X2 consequentemente X2 e efeito de X\. A o u t r a parte que f o r m a uma rede

Byesiana, isto e, o c o n j u n t o de probabilidades, c o n t e m o c o n j u n t o de probabilidades a priori dos nos raizes e o c o n j u n t o de probabilidades condicionais dos eventos associados as ligacoes entre nos adjacentes.

Alem das matrizes que f o r m a m o c o n j u n t o Bp, que sao probabilidades que nao sao alteradas se o estado da rede m u d a , cada no possui um vetor com as probabilidades a posteriori, que refletem o grau de certeza atribufdo a cada estado, face os estados das demais variaveis. Este vetor e denominado vetor de crenca, do ingles belief, definido c o m o a seguir:

D e f i n i c a o 8 ( C r e n c a ) Chama-se crenca, denotada por BEL(-), a probabilidade de um no

as-sumir um valor, dados os valores de todos os demais nos instanciados.

BEL(xl)=p(xl\E), (2.3)

em que E e uma evidencia.

Q u a n d o associada a u m no, e nao a uma instancia, a notacao BEL(-) referenda o ve-t o r de crencas do no, isve-to e, BEL(Xl) = (BEL(xli), BEL(xl2), • • • ,BEL(xxn)), em que

£t2) • • • , xm sao os possfveis valores que o no Xt pode assumir.

A ocorrencia de uma evidencia gera na rede u m desequilibrio, que pode ser interpretado c o m o a existencia de inconsistencias nos vetores de crencas de alguns nos. Para reintroduzir a rede em um novo estado de equilfbrio executa-se um a l g o r i t m o denominado a l g o r i t m o de inferencia (Lauritzen et al. [74], Jensen [61], Pearl [ 8 7 ] ) . 0 mecanismo de f u n c i o n a m e n t o das redes Bayesianas pode, p o r t a n t o , ser entendido c o m o a execucao do a l g o r i t m o de inferencia em resposta a ocorrencia de evidencias. 0 problema de inferencia em redes Bayesianas e em geral da classe NP-HARD (Cooper [ 2 2 ] ) , e n t r e t a n t o , q u a n d o o grafo que a compoe e uma poliarvore existem algoritmos de complexidade p o l i n o m i a l .

Os dois principals procedimentos envolvidos com redes Bayesianas sao a realizacao de infer-encia e a obtencao da rede a partir de um c o n j u n t o de observacoes, procedimento denominado aprendizado. 0 aprendizado de uma rede Bayesiana e u m problema largamente estudado na lit-eratura ( B u n t i n e [15]). De um m o d o geral, este problema e colocado c o m o sendo a obtencao de Bs e Bp a partir de um c o n j u n t o de observacoes ou casos, sendo que a maior dificuldade reside, de f a t o , em o b t e r a estrutura da rede - Bs- Nas secoes seguintes serao estudadas separadamente

(27)

estas duas partes. Na Secao 2.2 sera abordado um a l g o r i t m o de inferencia proposto por Pearl [87], na Secao 2.3 sera discutido o problema de aprendizado em redes Bayesianas, isto e, c o m o obter a rede a partir de u m c o n j u n t o de casos, e na Secao 2.4 sera comentada a aplicacao de redes Bayesianas ao problema de classificacao.

2.2 Inferencia em redes Bayesianas

Esta secao descreve o a l g o r i t m o de inferencia proposto por Pearl [87] e [88], que e utilizado no m e t o d o proposto apresentado no Capi'tulo 4. Este a l g o r i t m o possui complexidade polinomial e se aplica a redes do t i p o poliarvore. A ideia do m e t o d o baseia-se em trocas de mensagens entre os nos, que ocorrem quando a rede recebe uma evidencia. C o m o mencionado anteriormente, o proposito do a l g o r i t m o e reorganizar a rede em u m novo estado no qual os vetores de crencas nao c o n t e m inconsistencia.

No m e t o d o proposto em Pearl, o c o m p u t o de p{xt\e) para u m no X, e uma evidencia E,

deve ser expresso c o m o uma funcao envolvendo separadamente as probabilidades de X assumir u m valor xu dado o estado de seus ascendentes e a probabilidade de seus descendentes t e r e m

assumido os valores apresentados em E dado Xt. Este calculo baseia-se numa particao do conjunto

de evidencias e m relacao ao no Xt ilustrado na Figura 2.3. E = EXx = E~xt U E X i , em que

Exx compreende o c o n j u n t o de nos f o r m a d o pela intersecao entre E e o c o n j u n t o f o r m a d o por

Xt e t o d o s os seus descendentes diretos e indiretos, e E% a intersecao entre E e o c o n j u n t o dos

ascendentes de Xt. O b v i a m e n t e , c o m o E~Xx e E X i sao m u t u a m e n t e exclusivos t e m - s e que

higura 2.3: Particao de E em relacao a X

BEL(Xl) = p(xt\eXt) = p{xx\e$ext) (2.4)

(28)

BEL(Xl) = a p ( e * > t ) p f o | e jt)

OIX(X1)TT(X1)

sendo a uma constante de normalizacao e

X(xt)

7r(rc

t

)

(2.5) (2.6) 0 vetor de crenca de X pode ser escrito com relacao a A e IT como

BEL(Xl) = a\(Xl)Q7T{Xl)

C o m a operacao p r o d u t o , denotado por 0 , representado a m u l t i p l i c a c a o c o m p o n e n t e a c o m p o -nente dos vetores A e TT definidos abaixo

sendo r, o n u m e r o de instancias de X%.

Cada no, p o r t a n t o , precisa m a n t e r um par de vetores auxiliares A e TT a fim de realizar a atual-izacao de seu vetor de crencas. A atualatual-izacao destes vetores auxiliares pode ser realizada atraves de mensagens provenientes de nos adjacente. Estas mensagens recebem d e n o m i n a t e s m u i t o proximas aos nomes dos vetores auxiliares, o que pode trazer dificuldades para a compreensao do m e t o d o . Vetores auxiliares e mensagens diferem na notacao apenas pela presenca de u m fndice subscrito, conforme c o m e n t a d o a seguir.

Considere um D A G , G, u m no Xt que possui ot descendentes e pt ascendentes, ou pais,

e uma particao de G em relacao a Xx. Sejam

G j J _

1

, . . . ,

GxXt_ particoes de G formada por

ascendentes de Xt, sejam

G j f ^ i

• • • , ^ xl+0 particoes formadas por seus descendentes, c o m o

ilustrado na Figura 2.4, sejam E^_^... ,El£_^ e E*xx+1, • • •, E%xl+0z a Pa r t e evidencia,

contida nos respectivos sub-grafos, os vetores auxiliares X(xl) e ir(xl) usados na atualizacao

de BEL(xl) e as mensagens A e TT enviadas de e para Xt e um no adjacente X3, c o m o definidos

X ( X

t

) =

(A(x

t

i),A(x

t 2

),-' •

ir(Xl) = {7r{xti),Tr{xl2), • • •

A(x

t r

,))

abaixo. V e t o r A — X(xt) = p{eXt\xt) V e t o r 7T

TT(X1) = p(xl\exJ

(29)

Figura 2.4: P a r t i c i o n a m e n t o de um D A G

0 a l g o r i t m o proposto por Pearl e formado por duas etapas denominadas fusao e propagacao. A fusao descreve o procedimento desempenhado por um no para atualizar seu vetor de crencas ao receber mensagens provenientes de nos adjacentes. 0 procedimento de propagacao descreve c o m o u m no c o m p o e uma mensagem a ser enviada para seus vizinhos apos ter sido realizada uma revisao de probabilidades referente a uma evidencia ocorrida na rede. Os procedimentos de fusao e propagacao serao apresentados em detalhes a seguir.

F u s a o Da Definicao 8 tem-se que

BEL(xt) = p(xt\e)

Inicialmente separa-se BEL(-) em duas partes contendo as probabilidades envolvendo Xt e

seus ascendentes e Xt e seus descendentes. Assim, tem-se que

BEL{xt) = p{xl\exeXt)

= V{xv\exelxt+x--.e%x^0x)

(30)

B E L ' ^ ) = QP (ex ,+ 1l ^ ) - - P ( e x ,+ 0, l ^ ) ? ( x , | e + )

A ( xt) 7r(xz)

= a A ( o ; , ) 7 r ( xl) (2.7)

C o m o X3(xt) = p(eXj\xt), j € {% + 1,* + 2 , . . . ,t + ot}, corresponde a mensagem A enviada

por X; a At, tem-se que

n^fo) t

2

-

8

)

Expandindo o t e r m o p ( £t| e ^t) tem-se que

^ t - i ri - p i

p(xl\eXt) = ^ 2 " ^T'P(x*\xi-ihi •••xi-PthPl)

hi=l h

Pt

=l

p { xl-l h l. . . xt-P t h p t\ ex %)

C o m o . . . xl-Pl sao m a r g i n a l m e n t e independentes em relacao a eXt, alem disso, c o m o

p ( xt_ / | e j j = p ( xt_ , | e £ ) entao

rt- i r , _p,

P ( x , | e £m) = ^ • • • ^ p ( xz| xl_lhl

...Xt-

Pt

h

Pt

)

fei=i hP l= i (2.9)

Uma vez que p(xjk\elx) = Tfx(x3k) e a mensagem 7r que o ascendente X3 envia para Xlt

entao, s u b s t i t u i n d o ^ ( x ^ ) em ( 2 . 9 ) tem-se que

rt- i T - , _ p , = Y l " ' 11, p (xt \xi - m • • • ^ - ptjPiK f e - u i ) - • - ^ ( z t - p i j j (2-10) =» BEL(xt) = ot \ / rt-i r»_P l x ^2 ]_2) a

(

Ot \ / ' t - I ' I - P i \

P r o p a g a c a o As equacoes de propagacao descrevem c o m o um no, Xt, elabora as mensagens A e TT enviadas aos seus ascendentes e descendentes, respectivamente, apos ter realizado a atualizacao em seu vetor de crencas.

(31)

A mensagem X%(xjk) enviada por Xx a um ascendente X3 referente ao seu /c-esimo estado e

uma revisao da probabilidade de t o d a parte de Exx que envolve Xlt o que inclui seus descendentes

e ascendentes exceto, logicamente, X3, dado xjk. De acordo c o m a notacao utilizada Xl(xjk) e

dado por

K(xjk) =p{e3x3\x3k)

Reescrevendo Xl(xjk) c o m base na particao de G em relacao a Xu tem-se que

\{x3k) = v((eXx\ex3)e~x^ • • • exx-l+0%xi\x3k) (2.12)

em que e jt \ e ^ corresponde a t o d a parte de EXx excluindo X3 e seus ascendentes e descendentes

exceto Xx.

C o m o nos desenvolvimentos anteriores, procura-se neste p o n t o tirar proveito das relacoes de independencia que podem ser descobertas a partir do modelo grafico. Sabe-se q u e Xx origina

uma separacao-d nas sub-redes formadas pelos seus descendentes o que origina a seguinte relacao

P ( e * x .+ 1 • • • e * ,+„ > . ) = ftpMSJ*.) ( 2 1 3 )

1=1

Por sua vez, cada u m dos ascendentes diretos de Xt t a m b e m origina separacoes-d, expressas

c o m o P ( e x+, .1. . . e y ; _pJ x , -1. . . x , _pJ = nP( e ' + _1| x1_ , ) (2.14) 1 = 1 Entao reescreve-se ( 2 . 1 2 ) c o m o rt-i ri - p i r,

hi-l h

Pl

= l h=l

v{eXl-x • • •exx -Pxex l+1 • • • exx+0}xjkXlhxl-ihl • • • ^ - i h j p{xl.lhl ... Xl-PlhPlXih\xjk) para J ±1-1

Substituindo as relacoes expressas em (2.13) e ( 2 . 1 4 ) em (2.15) obtem-se

(2.15)

hi = l

hPl =

l

h =

l

^ x l+1l ^ ) . . . p ( e l xi+ oJ ^ ) (2.16)

P (e£ _ a N t - l / i , ) • • • P(eXx.Pl \xi-^hPl)

(32)

Ocorre q u e p{eXi+l\xth) = Xi(xth) e a mensagem A recebida por Xx de seu /-esimo

descen-dente. A l e m disto, pode-se reescrever p{xl.Vll ... xl.P i h pxl h\ xj k) c o m o

p{xlh\x3kx^lhl . . . xl.PihJ p ( xl.lhl. ..xt-Plhpt\x3k) (2.17)

Mais uma vez, c o m o as variaveis XJt Xt_ i , . . . . Xt-Pl sao marginalmente independentes, entao

p(Xi-lhl . ..xl_Pihpi\x3k) = p(xt-lhl).. .p(xl^PihJ (2.18)

S u b s t i t u i n d o ( 2 . 1 7 ) e ( 2 . 1 8 ) em (2.16) e reagrupando os termos tem-se que

* < * * ) - £ • • • £ £

A,+i(x,h)... A

t + 0 l

( x

t / l

)

P ( « S L ,

)p(xl-ihl ) • • •

P ( « £ _ *

Ix* - p » * p.

)P(*i-P.fcp, )

p(^t/i|^;fc^i-i/n • • • Xt-p./jp,) para j ^ i - I

Usando o Teorema de Bayes, cada t e r m o p(eXx_l\xl-ihl)p(xl-ihl) pode ser rearranjado c o m o

aip(xt-ihl\eXx_t)

em que ai e u m a constante. Finalmente, c o m o p(xt-ihl\ex" ) = 7Tj(x,_//,(), tem-se que

P(etxt.i\xt-ihi)p{xi-iht) = atir^Xr-th,)

rt - p i r,

=> A(x

j f c

) = a ^ • • • £ £

hi=l h

P t

=l/i=l

A

t +

i ( x

j / !

) . . . A

1 + 0 j

( x

t / l

) (2.19)

fft(£s-»l*i)

• • •

7 r

t(x,-

p

,fc

p i

)

p(xl / l|xj f c2;t_i/ l l . . . xt-P t h p t) para j ^ i - l

em que a e uma constante de normalizacao e p(xlh\xjkxt-ih, . • • xi-PlhPl) e parte de Bp, p o r t a n t o ,

conhecido.

E i m p o r t a n t e destacar que no c o m p u t o de ( 2 . 1 5 ) a ( 2 . 1 9 ) , obviamente, nao esta incluida a contribuicao proveniente de X3, assim o s o m a t o r i o se realiza sobre t o d o s os ascendentes de Xx

exceto aquele para o qual ele envia a mensagem A.

(33)

TT3(X%) =p{xt\eXa)

equivale ao calculo de BEL(xx) considerando que na evidencia seja excluida a parte relativa a

Xj e seus descendentes e ascendentes, exceto Xt. Logo, a partir de ( 2 . 1 1 ) tem-se que

ir3(xx) =p{xl\eXj) = a / \ /7-1-1 R' ~ P ' K&3 J

S i = l

JP» = 1 )

)

(2.20)

2.3 Aprendizado de redes Bayesianas

A o longo dos u l t i m o s 10 anos diversos autores propuseram e aperfeicoaram m e t o d o s para resolver o problema de o b t e r uma rede Bayesiana a partir de um c o n j u n t o de observacoes. Refer-encias i m p o r t a n t e s nesta area podem ser obtidas em B u n t i n e [15], que realiza u m a completa revisao de literatura sobre o assunto ate o ano de 1996, Heckerman [56], que descreve os f u n d a -mentos de varios metodos e assuntos correlatos e Krause [71] que realiza uma revisao abrangente e acessfvel procurando localizar-se entre as duas publicacoes anteriores, sendo mais profundo que B u n t i n e [15] e menos t e c n i c o que Heckerman [56].

0 maior problema ao o b t e r uma rede Bayesiana a partir de dados e determinar sua e s t r u t u r a , Bs, devido a enorme q u a n t i d a d e de redes que pode ser originada a partir de um pequeno c o n j u n t o de dados. Bouckaert [10] cita que a quantidade de redes, denotado c o m o G(-), que pode ser formada por um c o n j u n t o de n nos e dada pela expressao

Assim, para u m c o n j u n t o c o m 10 nos existem aproximadamente 4 , 2 x 10 diferentes estruturas possfveis. A maioria das solucoes propostas sao baseadas em heuristicas que u t i l i z a m uma medida de adequacao da estrutura aos dados ( m e t r i c a ) e em uma estrategia de busca (search procedure). Estes m e t o d o s t a m b e m sao denominados metodos de busca e pontuacao (Carneiro [ 1 7 ] ) . A l e m destes, ha t a m b e m a l g o r i t m o s que procuram obter a estrutura da rede atraves de testes de independencia condicional que sucessivamente vao acrescentando arcos a uma rede inicialmente formada por nos nao interligados. Estes sao denominados m e t o d o s baseados em analise de dependencia (Carneiro [ 1 7 ] ) .

A o longo desta secao serao abordados os problemas relacionados ao aprendizado de Bp e Bs- Inicialmente sera t r a t a d o o problema de aprendizado de Bp considerando os casos em que se dispoe de bases c o m p l e t a e incompleta. Em seguida sera t r a t a d o o problema de aprendizado de Bs considerando a abordagem baseada busca e pontuacao.

G(n) = ^ = i ( - ^ )l +lO G ( n - i ) , caso c o n t r a r i o

(34)

X\ = { X u , X i 2 , • • • , X ln}

%2 = { x2l, X 2 2 , • ' • ,X2r2}

{x31,x32;

' • * , Z 3 r

3

}

Figura 2.5: Configuracao de u m c o n j u n t o de nos usado para modelar aquisicao de probabilidades

2.3.1 Aprendizado de probabilidades condicionais

0 problema de aprendizado de probabilidades consiste em determinar para t o d a s as instancias de u m no, Xx = { xt l, • • • , xlTl}, a probabilidade condicional da ocorrencia de xlT dada a ocorrencia

da j - e s i m a instancia dos pais de Xu denotado por Pax.

Considere inicialmente o desenvolvimento de uma solucao baseado nos dados da Figura 2.5, que apresenta u m a rede Bayesiana bastante simples formada por apenas tres nos. C o m o X\ e X2 sao nos raizes entao o c o n j u n t o de pais de X\ e X2 sao vazios. 0 problema de obter

probabilidades condicionais se restringe p o r t a n t o ao no X3, entao, c o m base nos dados desta

f i g u r a , o problema de aquisicao de probabilidades pode ser colocado como encontrar os valores de p(x3i\pa3]),p{x32\pa3]),... ,p{x3r2\pa33), em que pa3j pode ser qualquer uma das rxr2

pos-si'veis combinacoes de instancias dos nos X\ e X2, isto e pa3j € {2:11X21,2:11X22, • • •

,2:17.1X2^}-Considere que a base de dados de observacoes das variaveis X\,X2 e X3 seja formada por

u m c o n j u n t o de tuplas c o m os valores instanciados de cada uma destas tres variaveis, isto e,

D = { ( ^U'x2 f c i 2 >xk3) ' (xhkU'xhki2^hkJ}- C a d a u m a destas t u p l a s e chamada caso e

a base de dados e dita ser completa se em cada caso existirem observacoes sobre cada uma das n variaveis que c o m p o e m a rede.

Considere agora o caso geral em que o c o n j u n t o D e o b t i d o a partir de uma rede c o m n variaveis. U m a vez que Bp e 0 elemento desconhecido e que se conhece Bs, suponha que a base de dados possa ser reagrupada conforme o arranjo seguinte:

D = { Ari i i ( x i i , p a n ) ,

Niqii{xu,palqi)

Afnll(3nliPOnl)i

Nnqni{xnupanqn), Nnqn2{xn2,panqn), Nnqnrn( xnrn, p anqn) }

Nu 2{ xl 2, pan), Nn r i( x ir i, pan),

Ni22(xi2,pa12), A ^ nn( x in, pa12),

Niqi2(xi2> p al q i) , Nl q i r i{ xl r i, p al q i) ,

(35)

com Ntjk d e n o t a n d o todas as observacoes da tupla (xlk,pal3). Utiliza-se o fndice rx para denotar

a quantidade m a x i m a de instancias de u m no Xv 0 fndice qx denota a quantidade maxima de

instancias do c o n j u n t o Pat. A o iongo de t o d a esta secao as letras i j e k serao usadas com o

seguinte sentido: a letra % denota o fndice do no, que pode variar de 1 ate n, a letra j denota o fndice dos pais de u m no e k, o fndice de uma instancia.

B a s e d e c a s o s c o m p l e t a

Considere as seguintes premissas:

I- A distribuicao xx dado pal3 denotado por p{xlk\paXJ) e m u l t i n o m i a l c o m parametros 0l3 =

II- A distribuicao a priori de 0l3 e Dirichlet, c o m parametros v„it..., i W i denotada c o m o

Dir(9X3i,...,9X3rt\vX3U...,vX3ri)

I I I - Os dados amostrados sao completos.

N a t u r a l m e n t e , a obtencao de 9X3k consiste na estimacao das proporcoes NXJk/

Sfc=i

NX3k, que

por hipotese possui distribuicao conjunta a priori Dirichlet. Utilizando o m e t o d o de inferencia Bayesiana a estimacao de 9X3k e dada pelo valor esperado da distribuicao a posteriori de 9ljk dado

as observacoes, isto e, Ep(dt3\D)[9ijk]- A distribuicao a posteriori de 9XJ e t a m b e m Dirichlet quando

os dados possuem distribuicao m u l t i n o m i a l , por esta razao as distribuicoes Dirichlet e m u l t i n o m i a l sao chamadas complementares ( N e a p o l i t a n [85]). A literatura (Heckerman [56], Neapolitan [85]) mostra que a distribuicao a posteriori de 9ij e dada por

p(0%3\D) = Dir(9X3i,..., 9%jr%\vX3\ + NX3i,..., vXJTl + NX3r%) (2.22)

Segue-se a partir da Equacao (2.22) que o valor esperado de9ljk, usado para estimar p{xxk\pat3)

e dado por

p(xxk\pat3) = Ep{0t3\D)[9X3k] = V%* j TT^~ (2-23) V%3 T i ' y

em que i /t J = e NX3 = J2k=i N

vh-A equacao (2.23) pode ser empregada satisfatoriamente no calculo de Ep(etJ\D)[9X3k] se existir

u m conhecimento a priori sobre a distribuicao de 0tJ. Foi assumido que p{0l3) e Dirichlet, mas

nada f o i d i t o sobre os valores dos parametros da distribuicao. Sem o conhecimento a priori sobre estes parametros, Zabell [106] mostra que a equacao (2.23) pode ser aproximada por

Nl3k + K

(36)

em que Nljk e Nt} sao definidos c o m o em ( 2 . 2 3 ) e K e uma constante, cujo valor sugerido e 1,

\ ou \ (Herskovits [ 5 7 ] ) .

B a s e de c a s o s i n c o m p l e t a

Na pratica, m u i t a s vezes e necessario t r a t a r com bases de casos incompletas, isto e, bases em que, em algumas tuplas, ha valores nao observados de algumas variaveis. 0 t r a t a m e n t o de bases de dados incompletas tern sido largamente estudado na literatura dada a sua i m p o r t a n c i a pratica. Alguns t r a b a l h o s que resumem os principals desenvolvimentos nesta area devem-se a Singh [103] e Heckerman [56], que realizam uma abordagem considerando que os valores nao preenchidos obedecam o Princi'pio da Informacao Ausente (do ingles Missing Information Principle) ( R a m o n i e Sebastiani [ 9 1 ] ) . Este princi'pio estabelece que os dados nao preenchidos t e n h a m uma ocorrencia aleatoria na base de casos e que possam ser preenchidos artificialmente com base na informacao presente.

Q u a n d o a ocorrencia dos valores ausentes obedece ao Princi'pio da Informacao Ausente, as solucoes de u m m o d o geral consistem em realizar o preenchimento dos dados omissos. Este preenchimento pode ser f e i t o de diversas formas, c o m o pela a t r i b u i c a o de u m novo estado carac-terizando u m dado nao observado, ou pelo emprego de um m e t o d o estati'stico. D e v i d o a grande variedade de m e t o d o s estati'sticos, ha por conseguinte, muitas formas de estimar os dados nao observados. As duas f o r m a s mais populares sao pelo emprego do a l g o r i t m o E M (Expectation and

Maximization) (Depster e t al. [29]) e pela amostragem de Gibbs (Neal [84], A n d r i e u et al. [4]). Q u a n d o os dados ausentes possuem u m vies, isto e, ocorrem de uma forma sistematia, Ramoni e Sebastiani [91] m o s t r a r a m que p o d e ser usado u m a l g o r i t m o determini'stico que, no caso medio, converge r a p i d a m e n t e para a solucao exata. 0 a l g o r i t m o de Ramoni e Sebastiani, denominado Bound and Collapse, ao inves de realizar o preenchimento da base de casos, estabelece limites (bounds) para os intervalos em que os parametros da rede podem se localizar (no pior caso este intervalo e igual a [ 0 , 1 ] ) , estes intervalos sao iterativamente reduzidos (collapse) convergindo assintoticamente para o valor esperado do parametro estimado.

Nesta secao a ideia dos a l g o r i t m o s de preenchimento baseados nos algoritmos E M e a m o s t r a g e m de Gibbs sera explicada em maiores detalhes.

A l g o r i t m o E x p e c t a t i o n M a x i m i z a t i o n 0 a l g o r i t m o E M e c o m u m e n t e empregado para

max-imizacao da funcao de verossimilhanca, que neste caso e a probabilidade condicional dos dados dado o vetor de parametros, 6, que pode ser denotada como

(37)

sendo D a a m o s t r a . N u m modelo de m i s t u r a , uma distribuicao p(x) e tida c o m o o resultado de uma mistura ou combinacao linear de outras distribuicoes, podendo ser expressa c o m o

P(x) = ^ * " t P t ( s | 0 i )

i

com TT1 > 0 sendo as proporcoes ou pesos da mistura, satisfazendo X^7rz = 1 e pt(x;9) as

densidades que c o m p o e m o modelo. N o caso da distribuicao p(D\0), pode-se reescreve-la como um modelo de mistura considerando uma particao do c o n j u n t o D = {D^°\D^}, em que refere-se as variaveis observaveis e Z )( e\ as variaveis escondidas ou nao observadas. Assim, tem-se

que

p(D\9) = Y , P (D i o )\D i e ): 0)p{D{e)\0) (2.25)

Com base na notacao empregada na equacao ( 2 . 2 5 ) , a ideia do a l g o r i t m o E M pode ser apre-sentada c o m o a seguir. Inicializa-se o vetor 6 e, com base nestes valores, realiza-se a estimacao das variaveis escondidas, D^e\ que corresponde a fase E (expectation) d o a l g o r i t m o . A base

completa resultante da fase E e entao empregada para a maximizacao de l(6\D), fase M (max-imization) do a l g o r i t m o . Os novos valores de 0 resultantes da fase M sao por sua vez usados para iniciar uma nova fase E, dando im'cio a um processo iterativo que finaliza q u a n d o u m dado criterio de convergencia e a t i n g i d o .

Na literatura e frequente a apresentacao da fase E do a l g o r i t m o c o m o uma etapa em que se o b t e m uma aproximacao da verdadeira funcao logantmica de verossimilhanca, c o m base no valor corrente de 6. N o r m a l m e n t e emprega-se o simbolo Q"> para denotar o valor de 0 na iteracao t, e denota-se a aproximacao de l(0\D) c o m o Q(d\0'*'). Graficamente, o c o m p o r t a m e n t o do a l g o r i t m o E M pode ser entendido com base na ilustracao da Figura 2.6, em que se apresentam duas iteracoes que seguem apos a atribuicao do valor inicial de 9 — 0 ( ° ' .

Para uma dada classe d e problemas, c o m o o problema de classificacao com base em mis-t u r a Gaussiana, ha esmis-tudos realizados que mis-t o r n a m simples a implemenmis-tacao d o a l g o r i mis-t m o E M ( W e b b [115], Ghahramani e Jordan [47]). Para o problema de estimacao de parametros em redes Bayesianas, Lauritzen [73] m o s t r o u que as etapas E e M podem ser realizadas c o m o apresentadas a seguir:

E t a p a E Dado que

m

1{9\D) = ]]_p(di\6)

1 = 1

em que m e a q u a n t i d a d e de casos e di, a /-esima tupla de D sobre o l o g a r i t m o de ( 2 . 2 6 ) , segue-se que

(2.26)

Referências

Documentos relacionados

A prevalência global de enteroparasitoses foi de 36,6% (34 crianças com resultado positivo para um ou mais parasitos), ocorrendo quatro casos de biparasitismo, sendo que ,em

Foram desenvolvidas duas formulações, uma utilizando um adoçante natural (stévia) e outra utilizando um adoçante artificial (sucralose) e foram realizadas análises

5.2 Importante, então, salientar que a Egrégia Comissão Disciplinar, por maioria, considerou pela aplicação de penalidade disciplinar em desfavor do supramencionado Chefe

Através do experimento in vivo, verificou-se que o pó nebulizado de nanocápsulas (Neb-NC) é efetivo na proteção da mucosa gastrintestinal frente à indometacina, enquanto que os

CAIXA, além do benefício previsto no parágrafo segundo da cláusula 26, o empregado que adotar ou obtiver guarda judicial para fins de adoção de criança fará jus

da quem praticasse tais assaltos às igrejas e mosteiros ou outros bens da Igreja, 29 medida que foi igualmente ineficaz, como decorre das deliberações tomadas por D. João I, quan-

Com base nos dados levantados por esta pesquisa, demonstra-se que as usinas A, B, C e D, possuem os requisitos necessários para a competitividade sustentável e, que

Os resultados permitiram concluir que a cultivar Conquista apresentou a maior produtividade de grãos, no conjunto dos onze ambientes avaliados; entre as linhagens