• Nenhum resultado encontrado

THÊMIS: um sistema para análise forense de DNA utilizando Redes Baysianas

N/A
N/A
Protected

Academic year: 2021

Share "THÊMIS: um sistema para análise forense de DNA utilizando Redes Baysianas"

Copied!
138
0
0

Texto

(1)Dissertação de Mestrado. THÊMIS: Um sistema para análise forense de DNA utilizando Redes Bayesianas. José Tenório César Costa tenoriocesar@gmail.com. Orientadores: Profa . Dra . Eliana S. Almeida Prof. Dr. Alejandro C. Frery. Maceió, Abril de 2009.

(2) José Tenório César Costa. THÊMIS: Um sistema para análise forense de DNA utilizando Redes Bayesianas. Dissertação apresentada como requisito parcial para obtenção do grau de Mestre pelo Curso de Mestrado em Modelagem Computacional de Conhecimento do Instituto de Computação da Universidade Federal de Alagoas.. Orientadores:. Profa . Dra. Eliana S. Almeida Prof. Dr. Alejandro C. Frery. Maceió, Abril de 2009.

(3) Catalogação na fonte Universidade Federal de Alagoas Biblioteca Central Divisão de Tratamento Técnico Bibliotecária Responsável: Helena Cristina Pimentel do Vale C837t. Costa, José Tenório César. THÊMIS : um sistema para análise forense de DNA utilizando redes bayesianas / José Tenório César Costa, 2009. 124 f. : il. Orientadora: Eliana Silva de Almeida. Co-Orientador: Alejandro César Frery. Dissertação (mestrado em Modelagem Computacional de Conhecimento) – Universidade Federal de Alagoas. Instituto de Computação. Maceió, 2009. Bibliografia: f. 120-124. 1. Bioinformática. 2. Genética forense. 3. DNA forense. 4. Modelagem computacional. 5. Redes bayesianas. I. Título. CDU: 004.78:575.113.1.

(4)

(5) Resumo Desde meados da década de 80, a tipagem do DNA (DNA fingerprinting) tem revolucionado a ciência forense, provendo uma poderosa ferramenta de investigação, sendo atualmente bastante utilizada em estudos de paternidade. Os laboratórios que trabalham com a análise forense de DNA realizam quantidades cada vez maiores de estudos desse tipo, incitando o uso de sistemas de software que auxiliem essa análise. Dentre as características essenciais para softwares dessa magnitude, está a confiabilidade, haja vista a minuciosidade do estudo. Dessa forma, é interessante o uso de métodos formais na execução de tais estudos. Neste trabalho, é construído um sistema de software, denominado THÊMIS, que utiliza o ferramental das Redes Bayesianas como meio de representação do conhecimento acerca de estudos de paternidade, obtendo por meio de inferências os resultados requeridos pela genética forense no que tange ao cálculo do Índice de Paternidade (IP).. i.

(6) Abstract Since the mid 80, DNA fingerprinting has revolutionized forensic science, providing a powerful tool for research, currently being widely used in studies of paternity. Laboratories that work with forensic analysis of DNA carry increasing amounts of such studies and encourage the use of software systems that help with this type of analysis. One of the requirements for software of this magnitude is reliability, considering the level of detail of the study. Thus, it is interesting the use of formal methods. In this work, a software system called THÊMIS is built. THÊMIS uses Bayesian Networks as knowledge representation about studies of paternity, using inferences to obtain the results required by the forensic genetics regarding the calculation of the Index of Paternity (IP).. ii.

(7) Agradecimentos A Deus por tudo que me fora concedido, em especial por minha prodigiosa família e por minha maravilhosa noiva. A meus queridos pais, César e Zelma, por terem me concebido a vida e por não terem medido esforços para tornar possível a concretização dos meus sonhos, bem como pelo amor e apoio incessantes. A meus estimados irmãos, Tarcísio e Cynthia, por se fazerem presentes em todos os momentos de minha vida, apoiando-me e me repreendendo sempre que preciso. Ao meu pequenino, porém gigante, sobrinho, Pedrinho, por toda alegria que tem proporcionado a mim e aos meus familiares, bem como pelo amor e carinho que nos tem dado. A minha maravilhosa noiva, Arianna, pelo amor, carinho, compreensão, paciência e apoio ininterruptos, fazendo-se, pois, sempre presente em minha vida. A todos os professores do Programa de Pós-Graduação em Modelagem Computacional de Conhecimento da Universidade Federal de Alagoas pela contribuição que têm dado a minha formação profissional, em especial a meus estimados orientadores, Profa. Eliana Silva de Almeida e Prof. Alejandro Frery, pela dedicação e paciência, pelos conselhos e incentivo e por não terem medido esforços no que tange à concretização desse sonho, acreditando em meu potencial e me incetivando sempre a superar-me. Ao Prof. Luiz Antonio Ferreira da Silva e ao MSc. Dalmo Almeida de Azevedo do Laboratório de DNA Forense da Universidade Federal de Alagoas pelo suporte na validação do sistema THÊMIS. À Fundação de Amparo à Pesquisa do Estado de Alagoas (FAPEAL) pelo apoio financeiro. E, por fim, aos colegas de curso e às demais pessoas que participaram direta ou indiretamente na consolidação desse trabalho. Em especial, ao meu amigo João Roberto, pelo ótimo trabalho desenvolvido e pela imensa ajuda dada no que se refere a essa empreitada.. iii.

(8) Sumário 1 Introdução 1.1 Contexto . . . . . . . . . . . . . . . . . 1.2 Advento das Redes Bayesianas . . . 1.3 Advento da Análise Forense de DNA 1.4 Justificativas . . . . . . . . . . . . . . 1.5 Materiais . . . . . . . . . . . . . . . . 1.6 Objetivos e Contribuições . . . . . . . 1.7 Estrutura . . . . . . . . . . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. 2 Conceitos de Probabilidade e de Estatística 2.1 Teoria dos Conjuntos . . . . . . . . . . . . 2.1.1 Definição . . . . . . . . . . . . . . . 2.1.2 Representação . . . . . . . . . . . . 2.1.3 Operações . . . . . . . . . . . . . . . 2.2 Modelos Matemáticos . . . . . . . . . . . . 2.3 Noções de Estatística . . . . . . . . . . . . 2.3.1 Freqüência . . . . . . . . . . . . . . 2.3.2 Probabilidade . . . . . . . . . . . . . 2.4 Comentários . . . . . . . . . . . . . . . . . 3 Redes Bayesianas: Fundamentação Teórica 3.1 Incerteza . . . . . . . . . . . . . . . . . . . 3.2 Notação e Definições . . . . . . . . . . . . . 3.3 Tratamento do Conhecimento Incerto . . . 3.3.1 Sistema de Compras . . . . . . . . . 3.4 Exemplo . . . . . . . . . . . . . . . . . . . . 3.5 Topologia . . . . . . . . . . . . . . . . . . . 3.6 Comentários . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . .. 4 Análise Forense de DNA: Fundamentação Teórica 4.1 Considerações Preliminares . . . . . . . . . . . . 4.2 A Estrutura do DNA e o Genoma Humano . . . . 4.2.1 O Genoma . . . . . . . . . . . . . . . . . . . 4.3 A Reação em Cadeia de Polimerase e Marcadores 4.4 Genética de Populações . . . . . . . . . . . . . . . 4.4.1 Equilíbrio de Hardy-Weinberg . . . . . . . 4.4.2 Freqüências Alélicas . . . . . . . . . . . . . 4.5 Análise de Vínculo Genético . . . . . . . . . . . . iv. . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . STRs . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . .. 1 2 3 5 7 7 8 8. . . . . . . . . .. 10 10 10 11 11 11 12 13 15 22. . . . . . . .. 23 23 24 24 25 26 29 33. . . . . . . . .. 34 34 34 37 38 39 39 42 46.

(9) SUMÁRIO. v. 4.5.1 Considerações Preliminares . . . . . . . . . . . . . . . . . . 46 4.5.2 Estudo de Paternidade . . . . . . . . . . . . . . . . . . . . . 47 4.6 Comentários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 5 Aplicacão das Redes Bayesianas na Análise Forense de DNA 5.1 Descrição do Problema . . . . . . . . . . . . . . . . . . . . . 5.2 Construção do Modelo . . . . . . . . . . . . . . . . . . . . . . 5.3 Inferência no Modelo . . . . . . . . . . . . . . . . . . . . . . 5.4 Aplicação Prática do Modelo . . . . . . . . . . . . . . . . . . 5.4.1 Construção das Tabelas de Probabilidade . . . . . . 5.4.2 Cálculo do IP . . . . . . . . . . . . . . . . . . . . . . . 5.5 Casos Complexos de Paternidade . . . . . . . . . . . . . . . 5.6 Comentários . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 O Sistema THÊMIS 6.1 Descrição do Sistema . . . . . . . . . . . . . . . . . 6.2 Tecnologias e Ferramentas Usadas . . . . . . . . . 6.3 Especificação de Requisitos . . . . . . . . . . . . . 6.3.1 Documento de Requisitos de Software . . . 6.3.2 Casos de Uso . . . . . . . . . . . . . . . . . . 6.4 Projeto . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4.1 Modelagem da Base de Dados . . . . . . . . 6.4.2 Arquitetura . . . . . . . . . . . . . . . . . . . 6.4.3 Diagrama de Atividades . . . . . . . . . . . . 6.4.4 Diagrama de Classes . . . . . . . . . . . . . 6.5 Validação . . . . . . . . . . . . . . . . . . . . . . . . 6.5.1 Inserção da Tabela de Freqüências Alélicas 6.5.2 Estudo Caso Padrão . . . . . . . . . . . . . . 6.5.3 Estudo Caso Complexo . . . . . . . . . . . . 6.6 Comentários . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . .. 7 Considerações Finais. . . . . . . . .. 53 53 54 55 57 58 62 63 64. . . . . . . . . . . . . . . .. 65 66 67 68 69 69 71 72 75 75 75 79 79 80 86 89 98. A Ferramentas para a Computação de Redes Bayesianas A.1 UnBBayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.2 Weka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.3 BayesBuilder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 101 . 101 . 102 . 103. B Cálculos das Probabilidades de cpg e cmg B.1 Cálculos das Probabilidades de cpg . . B.1.1 Pr(cpg = a) . . . . . . . . . . . . . B.1.2 Pr(cpg = b) . . . . . . . . . . . . . B.1.3 Pr(cpg = c) . . . . . . . . . . . . . B.2 Cálculos das Probabilidades de cmg . . B.2.1 Pr(cmg = a) . . . . . . . . . . . . B.2.2 Pr(cmg = b) . . . . . . . . . . . . B.2.3 Pr(cmg = c) . . . . . . . . . . . .. 104 . 104 . 104 . 106 . 108 . 110 . 110 . 111 . 112. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . ..

(10) SUMÁRIO. vi. C Aquivos em Formato CSV 114 C.1 CSV da Tabela de Freqüências Alélicas de Alagoas . . . . . . . . . 114 C.2 CSV do Estudo de Paternidade Caso Padrão . . . . . . . . . . . . . 116 C.3 CSV do Estudo de Paternidade Caso Complexo . . . . . . . . . . . 118.

(11) Lista de Figuras 2.1 Classificação de variáveis . . . . . . . . . . . . . . . . . . . . . . . . 14 3.1 3.2 3.3 3.4. Modelagem do Mercado Pago com uma rede Rede bayesiana com dois nós . . . . . . . . Rede bayesiana com três nós . . . . . . . . . Rede bayesiana com três nós modificada . .. probabilística . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8. Estrutura do DNA . . . . . . . . . . . . . . . . . . Cromossomos na espécie humana . . . . . . . . . Genoma Humano . . . . . . . . . . . . . . . . . . Saída de um seqüenciador de eletroforese capilar Proporções genotípicas . . . . . . . . . . . . . . . Genealogia caso padrão . . . . . . . . . . . . . . . Probabilidades dos genótipos da criança . . . . . Genealogia caso complexo . . . . . . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . .. . . . .. . . . .. . . . .. 26 27 28 30. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. 35 36 38 40 43 49 51 52. 5.1 Rede bayesiana para caso padrão . . . . . . . . . . . . . . . . . . . 56 5.2 Rede bayesiana para caso complexo . . . . . . . . . . . . . . . . . 64 6.1 Diagrama de Casos de Uso . . . . . . . . . . . . 6.2 Modelo Conceitual . . . . . . . . . . . . . . . . . 6.3 Modelo Lógico . . . . . . . . . . . . . . . . . . . 6.4 Arquitetura do Sistema: camadas, subsistemas 6.5 Diagrama de Atividades . . . . . . . . . . . . . . 6.6 Diagrama de Classes (Geral) . . . . . . . . . . . 6.7 Diagrama de Classes (Calculus) . . . . . . . . . 6.8 Diagrama de Classes (Persistence) . . . . . . . . 6.9 Opção Inserir Tabela . . . . . . . . . . . . . . . 6.10 Informação da localidade . . . . . . . . . . . . . 6.11 Carregamento do csv . . . . . . . . . . . . . . . 6.12 Tabela carregada . . . . . . . . . . . . . . . . . . 6.13 Dados para estudo caso padrão . . . . . . . . . 6.14 Opção Inserir Processo . . . . . . . . . . . . . . 6.15 Inserção processo - Parte 1 (ECP) . . . . . . . . 6.16 Inserção processo - Parte 2 (ECP) . . . . . . . . 6.17 Opção Inserir Perfis . . . . . . . . . . . . . . . . 6.18 Seleção do número do processo . . . . . . . . . 6.19 Seleção do modo de inserção . . . . . . . . . . . 6.20 Visualização dos perfis inseridos (ECP) . . . . . vii. . . . e . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . pacotes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . .. 70 73 74 76 77 80 81 82 83 83 84 85 86 86 87 88 89 89 90 91.

(12) LISTA DE FIGURAS 6.21 Opção Iniciar Cálculo . . . . . . . . . . 6.22 Opção Exibir Resultado . . . . . . . . . 6.23 Resultado do cálculo (ECP) . . . . . . . 6.24 Dados para estudo caso complexo . . . 6.25 Inserção processo - Parte 1 (ECC) . . . 6.26 Inserção processo - Parte 2 (ECC) . . . 6.27 Visualização dos perfis inseridos (ECC) 6.28 Resultado do cálculo (ECC) . . . . . . .. viii . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. 92 92 93 94 94 95 96 97.

(13) Lista de Tabelas 4.1 Proporções alélicas da prole numa população em Equilíbrio de Hardy-Weinberg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 4.2 Valor do IP no caso padrão . . . . . . . . . . . . . . . . . . . . . . . 50 5.1 Freqüências alélicas do marcador M1 . . . . . 5.2 Tabela de probabilidade a priori de pppg . . . 5.3 Tabela de probabilidade a priori de ppmg . . . 5.4 Tabela de probabilidade a priori de mpg . . . 5.5 Tabela de probabilidade a priori de mmg . . . 5.6 Tabela de probabilidade a priori de pb . . . . 5.7 Tabela de probabilidade a posteriori de cpg . 5.8 Tabela de probabilidade a posteriori de cmg . 5.9 Tabela de probabilidade a posteriori de pgen . 5.10 Tabela de probabilidade a posteriori de mgen 5.11 Tabela de probabilidade a posteriori de cgen . 5.12 Tabela de probabilidade a priori de cpg . . . . 5.13 Tabela de probabilidade a priori de cmg . . .. ix. . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . . .. 58 58 58 58 59 59 59 60 60 60 61 62 62.

(14) Lista de Pseudo-códigos 3.1 Pseudo-código para construção de uma rede bayesiana . . . . . . 29. x.

(15) Capítulo 1 Introdução A análise de dados biológicos pode ser relativamente complexa, haja vista que, em geral, a quantidade de dados a serem analisados é demasiadamente grande, bem como muitas dessas análises envolvem cálculos matemáticos e estatísticos, tornando, assim, a tarefa dos biólogos bastante árdua. Os avanços da biologia molecular nas últimas décadas vêm favorecendo a geração de uma enorme quantidade de dados num tempo cada vez menor. Essa grande capacidade de geração de dados permite que os pesquisadores acelerem o ritmo de suas pesquisas, exigindo a utilização de estruturas mais robustas para o gerenciamento destes, bem como de ferramentas computacionais com capacidade de analisar e auxiliar na tarefa de dar um significado biológico a todos estes dados em tempo satisfatório (Setubal & Meidanis, 1997; Baldi & Brunak, 2001). Buscando auxiliar os biólogos na análise forense de DNA, bem como dar continuidade aos estudos e às atividades desenvolvidas no Instituto de Computação da Universidade Federal de Alagoas na área de Bioinformática e no uso das Redes Bayesianas como uma abordagem estocástica para a incerteza, a presente dissertação visa à modelagem, implementação e validação de um sistema de software que utilize dados de DNA autossômico, também conhecido como nuclear, para obtenção dos resultados requeridos pela genética forense (Butler, 2005). Estes resultados dizem respeito à verificação de vínculo genético em estudos de paternidade. Será mostrado que este sistema pode ser utilizado em qualquer laboratório de DNA Forense, haja vista sua confiabilidade. A validação desse software foi realizada no Laboratório de DNA Forense da Universidade Federal de Alagoas (http://www.labdnaforense.org/). Nas seções e capítulos seguintes, serão apresentados de maneira objetiva os conceitos de maior relevância necessários ao entendimento da análise fo-. 1.

(16) 1.1. CONTEXTO. 2. rense de DNA (no que tange à verificação de vínculo genético em estudos de paternidade), bem como das redes bayesianas (também conhecidas como redes de crença, redes probabilísticas, redes causais e mapas de conhecimento), que serão utilizadas na representação do conhecimento acerca de casos em que será verificada a paternidade de um indivíduo. Por fim, serão apresentadas a modelagem, a implementação e a validação de um sistema de software, o sistema THÊMIS, que utiliza as redes bayesianas na obtenção dos resultados em estudos de paternidade.. 1.1 Contexto Por mais de dois mil anos a humanidade tenta desvendar os mistérios que há na inteligência. O sonho do desenvolvimento de sistemas computacionais inteligentes tem sido fonte de pesquisa desde meados dos anos 40, época em que surgiram os primeiros computadores (Marques & Dutra, n.d.). A busca pela concretização desse sonho originou um novo campo de conhecimento denominado Inteligência Artificial (IA). Desde o seu surgimento, a IA tem focado seus estudos na busca por maneiras de se representar a inteligência humana por meio de computadores de diversos tipos, o que se pode ver claramente no seguinte texto de Luger (2004, p. 195): A questão da representação, ou de como capturar, da melhor forma possível, os aspectos críticos da atividade inteligente para uso num computador, ou mesmo para a comunicação com os seres humanos, tem sido um tema constante ao longo dos cinqüenta anos da história da IA. A representação do conhecimento por meio de computadores é, na grande maioria dos casos, uma tarefa bastante complexa, uma vez que exige, além do conhecimento acurado do domínio a ser representado, o entendimento de diversos conceitos cuja compreensão é de fundamental importância para a construção de uma boa representação, ou seja, uma representação que retrate fielmente o domínio. Há diversas abordagens que podem ser utilizadas para representar o conhecimento, dentre elas: métodos fracos para resolução de problemas, métodos fortes para resolução de problemas e métodos baseados em agentes (para maiores detalhes, ver Luger, 2004). A escolha da abordagem, por estar intimamente relacionada ao domínio a ser representado, é uma das etapas mais importantes na modelagem de um sistema para representação do conheci-.

(17) 1.2. ADVENTO DAS REDES BAYESIANAS. 3. mento, podendo, pois, em caso de uma escolha “equivocada”, comprometer todo o sistema. Assim como as abordagens para representação, os domínios são muito diversos, uma vez que representam aspectos do mundo real, o qual é, por natureza, infinito. Devido à infinidade de domínios existentes, os quais possuem muitas características peculiares, deve haver grande cautela na escolha da abordagem a ser utilizada para representá-los. Nos domínios gerados na análise forense de DNA em estudos de paternidade, há um certo grau de incerteza, haja vista que apesar de cada ser humano possuir um perfil genético único (como será discutido mais adiante), em estudos forenses é impossível se analisar todo o genótipo dos indivíduos envolvidos, havendo, pois, a necessidade de se utilizar inferências a partir da análise de uma amostra. Uma abordagem geral para tratar a falta de informação (incerteza) é por meio de cálculos probabilísticos, uma vez que “a probabilidade proporciona um meio para resumir a incerteza” (Russell & Norvig, 2004, p. 451), permitindo, dessa forma, a obtenção de conclusões úteis, a partir de dados incompletos e imprecisos. Nesse tipo de abordagem, as informações a posteriori são obtidas por inferências a partir das informações a priori e das evidências disponíveis (ver capítulo 2).. 1.2 Advento das Redes Bayesianas Pode-se observar a evolução no tratamento da incerteza em sistemas computacionais fazendo uma breve analogia entre as abordagens utilizadas nas décadas de 60 a 80, as quais são explanadas sucitamente a seguir e discutidas com maiores detalhes em Flores et al. (2000). A partir dos anos 60, foram construídos os primeiros sistemas computacionais de apoio à decisão que eram, em sua maioria, voltados para problemas de diagnóstico. Esses sistemas tratavam a incerteza de forma restritiva devido à falta de interesse no uso da teoria das probabilidades, vista como intratável em termos computacionais, obtendo, pois, em geral, resultados matematicamente incorretos em domínios maiores. Nos anos 70, surgem os sistemas especialistas (SE) que utilizavam, para manipular incerteza, métodos ad hoc, os quais associavam fatores de certeza às regras constituintes da base de conhecimento como forma de tratamento para a incerteza. Por poderem manipular domínios maiores, esses sistemas são mais robustos e mais complexos que os anteriores, porém podem produzir.

(18) 1.2. ADVENTO DAS REDES BAYESIANAS. 4. resultados inesperados. No final dos anos 80, o interesse por abordagens que utilizavam a teoria das probabilidades para lidar com incerteza ganhou foco novamente, estando essa retomada intimamente ligada ao surgimento das redes probabilísticas — modelos que representam graficamente as dependências probabilísticas entre os objetos do domínio. Dentre as vantagens dessa nova abordagem, pode-se citar: • representação e manipulação da incerteza baseadas em modelos matemáticos; • modelagem do conhecimento de forma intuitiva acerca do domínio; • permissão à realização de inferência causal, de diagnóstico, intercausal ou mista. A utilização de modelos gráficos —grafos cujos nós são variáveis aleatórias e cujos arcos representam as relações entres essas variáveis— é uma abordagem interessante para representar domínios incertos com alta complexidade, uma vez que estes modelos unem a teoria dos grafos, que permite descrever graficamente as relações entre as variáveis, e a teoria das probabilidades, que atribui níveis de crença às variáveis. Dentre os modelos gráficos, estão as redes bayesianas que são um formalismo poderoso para representar e raciocinar sob circunstâncias de incerteza (Cheng et al., 2002, p. 43). Desde a década de 90, época em que teve início a maior parte das pesquisas em redes bayesianas, essa rede probabilística vem sendo utilizada para a solução de vários tipos de problemas pertinentes às mais diversas áreas, como por exemplo: • classificação de tumores ovarianos (ver Antal et al., 2003); • análise da seqüência de terremotos que ocorreram numa região (ver Agostinelli & Rotondi, 2003); • investigação das causas que propiciam a queda na qualidade da água em sistemas de tratamento (ver Pike, 2004); • previsão da taxa (quantidade) de macroinvertebrados em rios (ver Adriaenssens et al., 2004); • previsão da confiabilidade de sistemas de software (ver Bai, 2005);.

(19) 1.3. ADVENTO DA ANÁLISE FORENSE DE DNA. 5. • previsão de manutenabilidade para sistema de software orientado a objetos (ver Koten & Gray, 2006); • modelagem dos principais fatores envolvidos no processo de produção de software (ver Vieira et al., 2006); • tratamento da incerteza existente na análise de dados biológicos (Egeland et al., 2000; Dawid et al., 2002; Cowell, 2003; Pena, 2006; Almudevar, 2007; Santos Júnior et al., 2008, 2009).. 1.3 Advento da Análise Forense de DNA A recombinação gênica provê um alto grau de variabilidade entre os seres humanos, possuindo cada indivíduo um perfil genético (genótipo) único, exceto os gêmeos monozigóticos. Antigamente, a ciência forense utilizava-se apenas das análises sorológicas dos polimorfismos de grupos sangüíneos e proteínas e de alguns marcadores genéticos. Por volta do início do século XX, teve início o exame forense de amostras biológicas, o qual fazia uso dos grupos sangüíneos ABO em evidências relacionadas à identificação de pessoas e a crimes. Todavia, atualmente os grupos sangüíneos eritricitários, como os sistemas ABO e Rh, foram substituídos por outras técnicas de análise forense, em especial a que utiliza como objeto de estudo o DNA. Dentre as vantagens no uso do DNA sobre a sorologia tradicional, pode-se citar: a possibilidade de sua aplicação sobre toda e qualquer fonte de material biológico, o seu potencial discriminatório, a sua resistência aos fatores ambientais, dentre outras (ver Henry, 2008). Correspondendo à segunda fase na evolução da ciência forense, em 1954, foi demonstrada, na superfície dos leucócitos, a ocorrência de um sistema de histocompatibilidade mediado por antígenos, denominado complexo Histocompatibility Leucocyte Antigen (HLA), determinado por genes alélicos muito próximos localizados no braço curto do cromossomo 6, com grande poder de discriminação individual ou determinação da individualidade genética (Calabrez, 1999). Desde meados da década de 80, a tipagem do DNA (DNA fingerprinting) tem revolucionado a ciência forense, provendo uma poderosa ferramenta de investigação no que tange à identificação de criminosos (Bianchi & Lio, 2007), à análise da paternidade de uma dada pessoa (Egeland et al., 2000; Santos Júnior et al., 2009), ao reconhecimento de corpos em desastres de grande.

(20) 1.3. ADVENTO DA ANÁLISE FORENSE DE DNA. 6. escala (Alonso et al., 2005; Leclair et al., 2004, 2007), dentre outros. Milhares de casos têm sido solucionados graças ao poder da genética forense. A tipagem do DNA foi primeiro descrita em 1985 pelo geneticista inglês Alec Jeffreys, o qual descobriu que certas regiões do DNA contendo seqüências de DNA eram repetidas e o número de repetições numa amostra diferia de um indivíduo para o outro. Surge, assim, a terceira fase do desenvolvimento das ciências forenses voltadas à identificação humana. Por desenvolver uma técnica para examinar a variação dessas seqüências repetidas de DNA, que produziam uma espécie de “impressão digital” do DNA, daí o termo DNA fingerprinting, o Dr. Jeffreys desenvolveu a habilidade de realizar teste de identidade em humanos. Essas regiões de DNA repitido foram chamadas de Variable Number of Tandem Repeats (VNTRs) e eram analisadas por uma técnica conhecida por Restriction Fragment Length Polymorphism (RFLP), pois usava uma enzima de restrição para cortar as regiões do DNA que envolviam as VNTRs (Butler, 2005). O RFLP foi o primeiro método usado para a resolução de um problema de imigração na Inglaterra (Jeffreys et al., 1985). No ano seguinte, esta mesma técnica foi utilizada para solucionar um caso de duplo homicídio (maiores detalhes em http://www.forensic.gov.uk/html/media/case-studies/f-18.html acessado pela última vez em 25-02-2009). Desde então, testes de identificação humana usando métodos de tipagem de DNA vêm sendo bastante difundidos e utilizados, o que se pode ver claramente em Leclair et al. (2004), Alonso et al. (2005), Bianchi & Lio (2007) e Bandyopadhyay et al. (2008). Atualmente, mais de 150 laboratórios forenses públicos e dezenas de laboratórios de teste de paternidade particulares conduzem centenas de milhares de testes de DNA anualmente nos Estados Unidos. Além disso, muitos países europeus e asiáticos têm programas de DNA forense e o número de laboratórios desse tipo vem aumentando consideravelmente em todo mundo (Butler, 2005). No Brasil, foi somente em 1994 que se criou o primeiro laboratório para análise forense de DNA. Tratava-se da Divisão de Pesquisa de DNA Forense da Polícia Civil do Distrito Federal. A partir daí muitos esforços têm sido feitos buscando a criação de novos centros para análise de material genético com rígidos padrões de qualidade, haja vista a minuciosidade desse tipo de estudo. Maiores detalhes a respeito da genética forense no Brasil podem ser obtidos em Smarra et al. (2006)..

(21) 1.4. JUSTIFICATIVAS. 7. 1.4 Justificativas Dentre os fatores preponderantes na escolha do tema desta dissertação, estão: • a complexidade que há em se representar o conhecimento por meio de sistemas computacionais, em especial quando se trata de um domínio com incertezas, como é o caso dos domínios em que são realizados os estudos de paternidade, uma vez que apesar de cada ser humano possuir um perfil genético único, em estudos forenses é impossível se analisar todo o genótipo dos indivíduos envolvidos, havendo, pois, a necessidade de se utilizar inferências na análise dos dados; • a imprecisão que há nos fatos reais, o que se pode ver claramente no seguinte texto de Albert Einstein: Na medida em que as leis matemáticas se referem à realidade, elas não são certas. E na medida em que elas são certas, elas não se referem à realidade. (apud Luger, 2004, p. 291) • a aplicação prática das redes bayesianas na resolução de uma infinidade de problemas do mundo contemporâneo, dentre os quais a análise de vínculo genético no que tange a estudos de paternidade (ver seção 1.2); • a inexistência no Brasil de softwares tal qual o familias (ver Egeland et al., 2000) que utiliza o ferramental das redes bayesianas como meio de representação do conhecimento acerca de estudos de paternidade, obtendo por meio de inferências os resultados requeridos pela genética forense no que tange ao cálculo do Índice de Paternidade (IP). Sendo importante mencionar que nesse software, é necessário o usuário construir a rede que representa o estudo em questão, exigindo, pois, desse indivíduo um certo grau de conhecimento sobre as redes bayesianas. Além disso, o familias não possui uma base de dados para o armazenamento dos perfis genéticos, os quais, devido a isso, não poderão ser utilizados em estudos futuros.. 1.5 Materiais Os materiais necessários ao pleno desenvolvimento do presente trabalho, haja vista o seu cunho teórico e sua aplicabilidade prática, foram artigos científicos e demais publicações científicas, em especial aquelas que foram publicadas em revistas renomadas da área, livros e ferramentas computacionais.

(22) 1.6. OBJETIVOS E CONTRIBUIÇÕES. 8. que corroboraram o conhecimento adquirido e contribuíram para a aquisição de novos conhecimentos. Dentre os softwares analisados que utilizam redes bayesianas como abordagem para representação do conhecimento (ver Apêndice A), o escolhido como motor de inferência na análise dos dados biológicos no que tange à verificação de vínculo genético em estudos de paternidade foi o UnBBayes, visto que este software se encontra disponível sob licença GNU General Public License (GPL), possui Application Programming Interface (API), bem como interface gráfica bastante simples e intuitiva, eficiência no processo de inferência e confiabilidade.. 1.6 Objetivos e Contribuições Dentre os objetivos e contribuições do trabalho estão: • aquisição de um conhecimento acurado em redes bayesianas, mais especificamento no uso desse formalismo na análise forense de DNA; • entendimento e avaliação de algumas plataformas computacionais disponíveis para o uso desse modelo (ver Apêndice A); • modelagem, implementação e validação de um sistema de software que utilize o formalismo das redes bayesianas na análise de dados biológicos, armazenando numa base de dados as informações sobre os estudos e não exigindo do usuário a construção da rede que representa a genealogia em questão. Dessa forma, os dados inseridos no sistema podem ser utilizados em análises futuras e o usuário não necessita ter conhecimento algum sobre redes bayesianas, ou seja, o uso desse formalismo fica transparente ao usuário; • concessão do referido sistema para uso no Laboratório de DNA Forense da Universidade Federal de Alagoas (http://www.labdnaforense. org/). Este laboratório realiza grande quantidade de estudos de paternidade e, para cada estudo realizado, os dados obtidos após a execução da tipagem de DNA são analisados com o auxílio de planilhas eletrônicas, nas quais são construídas funções para este fim.. 1.7 Estrutura O texto está estruturado da seguinte forma:.

(23) 1.7. ESTRUTURA. 9. Capítulo 2 Aborda os conceitos da teoria das probabilidades necessários ao entendimento das redes de crença. Capítulo 3 Apresenta os conceitos de maior relevância sobre redes bayesianas (topologia, inferência etc.). Capítulo 4 Apresenta os conceitos de maior relevância sobre análise forense de DNA autossômico na verificação de vínculo genético em estudos de paternidade. Capítulo 5 Mostra a aplicação das redes bayesianas na análise de dados biológicos voltados à verificação de vínculo genético em estudos de paternidade. Capítulo 6 Mostra a modelagem, implementação e validação do sistema THÊMIS que utiliza redes bayesianas na representação do conhecimento acerca de estudos de paternidade. Capítulo 7 Apresenta as considerações finais do trabalho (conclusões e trabalhos futuros). Apêndice A Contém uma breve descrição de algumas ferramentas que provêem suporte à construção de redes bayesianas e à inferência nesse modelo probabilístico. Apêndice B Contém os cálculos das probabilidades necessárias à construção das tabelas de probabilidade a priori das v.a. cpg e cmg apresentadas no Capítulo 5. Apêndice C Contém os arquivos csv usados no Capítulo 6 (seção 6.5). É importante ressaltar que os Capítulos 2 e 3 e o Apêndice A advêm de meu Trabalho de Conclusão de Curso (ver Costa, 2007), sendo incorporados no presente trabalho após uma acurada revisão..

(24) Capítulo 2 Conceitos de Probabilidade e de Estatística Neste capítulo, serão abordados alguns dos conceitos de probabilidade e de estatística que terão grande utilidade no entendimento das redes bayesianas, tais como: probabilidade a priori, probabilidade a posteriori, independência condicional e teorema de Bayes.. 2.1 Teoria dos Conjuntos O conhecimento de alguns conceitos da teoria dos conjuntos é importante para que haja um bom entendimento da teoria das probabilidades.. 2.1.1 Definição Pode-se definir conjunto como uma coleção de objetos denominados elementos. Esses elementos são indicados por letras minúsculas, ao passo que os conjuntos são representados por letras maiúsculas. As relações entre elementos e conjuntos são expressas pelos símbolos pertence (∈) e não pertence (∈). / Já as relações entre conjuntos são indicadas pelos símbolos está contido (⊂), não está contido (6⊂), contém (⊃), não contém (6⊃), igual (=) e diferente (6=). O conjunto que não possui elementos é denominado conjunto vazio e representado por 0/ ou {}, enquanto que o conjunto ao qual todos os objetos que estão sendo estudados pertecem é chamado conjunto fundamental ou conjunto universo, sendo representado geralmente pela letra maiúscula U ou, em se tratando de espaços amostrais, por Ω.. 10.

(25) 2.2. MODELOS MATEMÁTICOS. 11. 2.1.2 Representação Um conjunto pode ser representado utilizando-se as três formas descritas a seguir. Extensão Enumeram-se seus elementos, os quais são escritos entre chaves e separados por vírgulas. Compreensão O conjunto é representado por meio de uma sentença a partir da qual se pode deduzir seus elementos. Figuras O conjunto é representado por meio do chamado diagrama de Venn.. 2.1.3 Operações As operações primitivas entre conjuntos são descritas a seguir. União A ∪B (lê-se união de A e B) é o conjunto formado por todos os elementos que pertencem a A ou a B. Intersecção A ∩ B (lê-se intersecção de A e B) é o conjunto formado por todos os elementos que pertencem a A e a B. Complemento Ac (lê-se complemento de A) é o conjunto dos elementos que pertencem ao conjunto universo U, mas não pertencem a A. Outra operação importante entre conjuntos é a Diferença. A \ B (lê-se diferença de A e B) é o conjunto dos elementos que pertencem a A, mas não pertencem a B, ou seja, A \ B = A ∩ Bc .. 2.2 Modelos Matemáticos Há situações em que não se pode prever com exatidão a ocorrência de um determinado fenômeno. A previsão do tempo é um exemplo disso, pois não é possível prever com certeza como será o clima num dado momento futuro. A situações como essa, dá-se o nome de fenômeno aleatório —denominação atribuída à situação ou acontecimento cujos resultados não podem ser previstos com certeza (Magalhães & de Lima, 2002). Este tipo de fenômeno produz resultados diferentes mesmo sendo submetido às mesmas condições. Para quantificar as incertezas das várias ocorrências de um experimento aleatório (nome dado ao fenômeno que se pretende observar) utilizam-se os chamados modelos probabilísticos —modelos matemáticos não determinísticos que permitem prever a probabilidade de um dado resultado ocorrer sem.

(26) 2.3. NOÇÕES DE ESTATÍSTICA. 12. a necessidade de repetir a experiência. É importante mencionar que experimento aleatório é outra denominação para fenômeno aleatório. Ao contrário dos modelos matemáticos não determinísticos que são usados para quantificar experimentos aleatórios, os modelos matemáticos determinísticos são utilizados para quantificar experimentos que geram resultados iguais quando executados sob as mesmas condições. Por exemplo, sabendose que a velocidade de um projétil é dada pela fórmula V = ∆S/∆T , onde V é a velocidade, ∆S é a variação do espaço e ∆T é a variação do tempo, dadas as variações do espaço e do tempo, é obtido o valor da velocidade V. Se forem executados vários cálculos consecutivos com os mesmos valores para essas variáveis, obter-se-á sempre o mesmo valor para V.. 2.3 Noções de Estatística A Estatística pode ser vista como um conjunto de técnicas que provêem sistematicamente organização, descrição, análise e interpretação de um conjunto de valores (dados) obtidos por meio de estudos e experimentos realizados nas mais diversas áreas da atividade humana (Magalhães & de Lima, 2002). Podese dividi-la em três áreas: Estatística Descritiva Essa área é utilizada na fase inicial da análise dos dados, tendo por finalidade extrair dos dados colhidos o maior número possível de informações relevantes referentes ao fenômeno em estudo. Essa tarefa, aparentemente simples, pode se tornar bastante complexa à medida que a quantidade de informações sobre o fenômeno aumenta. Em suma, citando Magalhães & de Lima (2002, p. 2): a estatística descritiva pode ser definida como um conjunto de técnicas destinadas a descrever e resumir os dados, a fim de que possamos tirar conclusões a respeito de características de interesse. Probabilidade É a teoria matemática utilizada no estudo da incerteza proveniente de fenômenos aleatórios (ver seção 2.3.2). Inferência Estatística É a obtenção de conclusões a partir de um subconjunto de valores, sendo este, em geral, bem menor que o conjunto inicial. Sua utilização só faz sentido quando não é possível ter acesso a todo o conjunto de dados que se pretende analisar. Isso ocorre, principalmente, por motivos econômicos, étnicos e físicos..

(27) 2.3. NOÇÕES DE ESTATÍSTICA. 13. Dá-se o nome de população ao conjunto dos dados dos quais se pretende observar características de interesse. Esse vocábulo pode referir-se tanto a indivíduos quanto ao alvo cuja característica de interesse é pertinente. Dessa forma, tanto os alunos de uma dada instituição quanto os sistemas produzidos por uma fábrica de software podem compor uma população. Conforme mencionado anteriormente, na grande maioria dos casos, não é possível acessar toda a população que se pretende estudar, havendo, pois, a necessidade de se aplicar técnicas de inferência estatística para obter conclusões a partir de subconjuntos de valores, denominados amostras.. 2.3.1 Freqüência Antes de definir o que é “freqüência”, será explicado o que são variáveis no contexto da Estatística e quais os seus tipos, haja vista que os conceitos de freqüência e de variável estão intimamente relacionados. Ao se analisar uma população, em geral, é coletada uma enorme quantidade de dados, os quais devem ser “tratados”, a fim de se extrair de maneira rápida e objetiva o maior número possível de informações consistentes e de interesse. Tabelas de freqüência e gráficos são procedimentos empregados para esse fim. Suponha que se queira fazer uma pesquisa em uma empresa para analisar algumas características dos indivíduos que a compõem como, por exemplo, o sexo, o nível de escolaridade, a altura e o número de filhos. Uma das formas de se obter informações a respeito dessa população é por meio de questionários. Após a tabulação do questionário, o conjunto de informações disponíveis é chamado de tabela de dados brutos. As características (sexo, nível de escolaridade, altura e número de filhos) perguntadas aos indivíduos são denominadas variáveis e são classificadas em dois tipos: quantitativas e qualitativas (Magalhães & de Lima, 2002). As variáveis númericas (quantitativas) podem ser subdivididas em discretas —são as que resultam de contagens, assumindo, em geral, valores inteiros— e contínuas —são, em geral, provenientes de mensuração, assumindo valores em intervalos reais. Como exemplo de variáveis quantitativas tem-se o número de filhos (quantitativa discreta) e altura (quantitativa contínua). As variáveis qualitativas são caracterizadas por representarem atributos e/ou qualidades, podendo ser subdivididas em nominais —são as que não possuem ordenação natural— e em ordinais —são as que têm uma ordenação natural. As variáveis sexo (masculino ou feminino) e nível de escolaridade (fundamental, médio ou superior) são qualitativas nominais e ordinais respectivamente..

(28) 2.3. NOÇÕES DE ESTATÍSTICA. 14. A Figura 2.1 resume por meio de um esquema a classificação das variáveis.. Variáveis. Quantitativas. Discretas. Contínuas. Qualitativas. Nominais. Ordinais. Figura 2.1: Classificação de variáveis A tabela de dados brutos obtida após a tabulação do questionário, apesar de conter uma grande quantidade de informações, pode não ser funcional para se tirar conclusões sobre as variáveis de interesse. Para suprir essa deficiência é contruída uma nova tabela, que conterá os valores das variáveis e suas respectivas contagens, denominada tabela de freqüência. A essas contagens dá-se o nome de freqüência absoluta ou, simplesmente, freqüência. Seja E um experimento (como, por exemplo, jogar uma moeda) e C um resultado possível desse experimento (como, por exemplo, ocorrer cara no lançamento da moeda). Supondo que E seja repetido n vezes e que C ocorreu nC vezes, tem-se que: I) nC é a freqüencia absoluta de C, ou seja, a quantidade de vezes que o experimento E teve C como resultado, inclusive as repetições; II). R. C = nC /n é a freqüência relativa de C nas n repetições do experimento E. A freqüência relativa de C possui as seguintes propriedades:. R (P1) 0 ≤ C ≤ 1; R (P2) C = 1 caso C ocorra em todas as repetições do experimento E; R (P3) C = 0 caso C não ocorra nas n repetições do experimento E. Suponha que ao se jogar 5 vezes uma moeda comum, obtenham-se os seguintes resultados: C, K, K, C, C, onde C representa o resultado ‘ocorrer cara’ e K, ‘ocorrer coroa’. Sendo nC e fC as freqüências absoluta e relativa de C respectivamente, tem-se que no final da quinta jogada nC = 3 e fC = 3/5..

(29) 2.3. NOÇÕES DE ESTATÍSTICA. 15. 2.3.2 Probabilidade O conjunto de todos os resultados possíveis de um fenômeno aleatório é demonidado espaço amostral, representado pela letra grega ômega (Ω). Os subconjuntos de Ω são denominados eventos e representados por letras latinas maiúsculas. As operações mostradas na seção 2.1.3 são estendidas para os eventos de um espaço amostral, haja vista que esses eventos são conjuntos. Portanto, dados dois eventos A e B, tem-se que: • A ∪ B representa a ocorrência de pelo menos um dos dois eventos; • A ∩ B representa a ocorrência dos dois eventos. Quando A ∩ B = {}, os eventos A e B são chamados disjuntos ou mutuamente exclusivos; • Ac representa a não ocorrência do evento A. Outra operação interessante é a Diferença. Dados dois eventos A e B, a diferença de A e B (A \ B) representa a ocorrência apenas do evento A. Um conceito importante é o de eventos complementares. Sejam A e B dois eventos, diz-se que estes são complementares se eles são disjuntos (A ∩ B = {}) e A ∪ B = Ω. Definição 1 (Probabilidade) A probabilidade Pr é uma função que atribui valores reais aos eventos do espaço amostral, devendo satisfazer as seguintes propriedades: (P1) 0 ≤ Pr(A) ≤ 1, ∀A ⊂ Ω; (P2) Pr(Ω) = 1; / = 0; (P3) Pr(0) (P4) Pr(∪ni=1 ) =. Pn. i=1 Pr(Ai ),. com todos os Ai disjuntos.. A atribuição de probabilidades aos elementos que constituem o espaço amostral pode ser feita de dois modos (ver Magalhães & de Lima, 2002, p. 38): • a partir de características teóricas do fenômeno; • a partir das freqüências de ocorrência (ver seção 2.3.1). Uma discussão interessante sobre a origem das probabilidades pode ser encontrada em Russell & Norvig (2004, p. 459)..

(30) 2.3. NOÇÕES DE ESTATÍSTICA. 16. O conceito básico da linguagem empregada pela teoria das probabilidades é a variável aleatória (v.a.). Uma v.a. pode ser vista, informalmente, como um característico numérico que representa o resultado de um experimento (James, 1981, p. 35). Os valores que a variável pode assumir formam o seu domínio. As variáveis aleatórias podem ser classificadas em booleanas, discretas, contínuas, mistas e singulares (para maiores detalhes, ver James, 1981). Abaixo é dada uma definição matemática para uma variável aleatória segundo James (1981). Definição 2 (Variável Aleatória) Seja Ω um espaço amostral qualquer e Pr uma probabilidade sobre seus elementos. A transformação X : Ω → R é chamada variável aleatória real (v.a.R) se sabe-se calcular Pr(X ≤ x) = Pr({ω ∈ Ω : X(ω) ≤ x}) para todo x ∈ R. A seguir são mostrados os chamados axiomas de Kolmogorov, os quais foram formulados pelo matemático russo Andrei Kolmogorov que mostrou como elaborar a teoria das probabilidades a partir dos princípios básicos dessa ciência (Russell & Norvig, 2004, p. 458). Axioma 1 Todas as probabilidades estão no intervalo fechado [0, 1], ou seja, 0 ≤ Pr(A) ≤ 1, ∀A ⊂ Ω. Axioma 2 Eventos certos têm probabilidade 1, ao passo que eventos impossíveis têm probabilidade 0, ou seja, ∀A ⊂ Ω, se A é um evento certo, tem-se Pr(A) = 1 e se A é um evento impossível, tem-se Pr(A) = 0. Axioma 3 A probabilidade da união de dois eventos quaisquer do espaço amostral é dada pela equação (2.1). Pr(A ∪ B) = Pr(A) + Pr(B) − Pr(A ∩ B), ∀A, B ⊂ Ω. (2.1). Obs.: No presente trabalho, a probabilidade da intersecção de n eventos (A1 , A2 , . . . , An ) poderá ser representada de duas formas: • Pr(A1 , A2 , . . . , An ) ou • Pr(A1 ∩ A2 ∩ · · · ∩ An )..

(31) 2.3. NOÇÕES DE ESTATÍSTICA. 17. Definição 3 (Evento atômico) Um evento atômico é uma especificação completa de um experimento, podendo ser considerado uma atribuição de valores aos possíveis resultados deste. Por exemplo, analise o experimento E que consiste em jogar uma moeda e um dado (não viciados) nessa mesma ordem. Sendo a moeda composta por duas faces (cara representado por C e coroa, por K) cada uma com probabilidade de ocorrência Pr = 1/2 e o dado formado por seis faces com valores de 1 (um) a 6 (seis) e com probabilidade de ocorrência Pr = 1/6 associada a cada face, tem-se a existência, nesse experimento, de doze eventos atômicos distintos, cada um com probabilidade de ocorrência Pr = 1/12. (C, 1) e (K, 6) são alguns dos eventos atômicos do experimento E que representam a ocorrência das faces cara e 1 (um) e, coroa e 6 (seis) respectivamente. Definição 4 (Probabilidade a priori) A probabilidade a priori, também chamada de probabilidade incondicional, é o grau de crença associado a um evento na ausência de informações (evidências) sobre esse evento. Definição 5 (Probabilidade a posteriori) A probabilidade a posteriori, também conhecida por probabilidade condicional, é o grau de crença associado a um evento dada alguma evidência sobre esse evento. Notação 4 (Probabilidade a posteriori) A notação utilizada para probabilidade condicional é Pr(A | B), onde A e B são eventos. Essa expressão é lida da seguinte forma: probabilidade do evento A dada a ocorrência do evento B. A probabilidade condicional de um evento A dada a evidência do evento B é obtida por meio da equação (2.2), válida se, e somente se, Pr(B) ∈ ]0, 1]. Pr(A | B) =. Pr(A ∩ B) Pr(B). (2.2). Um dos resultados mais úteis e instigantes da probabilidade decorre da definição de probabilidade condicional. A partir da equação (2.2) pode-se escrever Pr(A ∩ B) = Pr(A | B) Pr(B) = Pr(B | A) Pr(A) que, generalizado, é conhecido como multiplicação de probabilidades. Teorema 5 (Multiplicação de Probabilidades) A probabilidade de ocorrência simultânea de n eventos pode ser calculada a partir das probabilidades condicionais: Pr(A1 ∩ · · · ∩ An ) = Pr(A1 ) Pr(A2 | A1 ) Pr(A3 | A1 ∩ A2 ) · · · Pr(An | A1 ∩ A2 ∩ · · · ∩ An−1 )..

(32) 2.3. NOÇÕES DE ESTATÍSTICA. 18. Definição 6 (Partição do Espaço Amostral) Os eventos B1 , . . ., Bk são uma partição do espaço amostral Ω se os mesmos são disjuntos dois a dois, se a união deles é o próprio espaço amostral e se todos possuem probabilidade estritamente positiva. Teorema 6 (Teorema da Probabilidade Total) Sejam o espaço amostral Ω, o evento A e a partição B1 , . . . , Bk , então Pr(A) =. X. Pr(A | Bi ) Pr(Bi ).. 1≤i≤k. Esta relação é extremamente útil para calcular a probabilidade de ocorrência de um evento A a partir de evidências parciais. Finalmente, está-se em condições de definir o conceito de independência entre eventos. Os eventos A, B ⊂ Ω são ditos independentes se Pr(A ∩ B) = Pr(A) Pr(B). Intuitivamente, dois eventos são independentes se a ocorrência de um não influi na probabilidade de ocorrência do outro. Proposição 7 Se A e B são eventos independentes, também o são os eventos A e Bc , Ac e B, e ainda Ac e Bc . Definição 7 (Independência coletiva) Os eventos A1 , . . . , An são chamados ‘coletivamente independentes’ se Pr(Ai1 ∩ Ai2 ∩ · · · ∩ Aim ) = Pr(Ai1 ) Pr(Ai2 ) · · · Pr(Aim ), para todos os índices 1 ≤ i1 < i2 < · · · < im ≤ n e todo 2 ≤ m ≤ n. A independência coletiva de três eventos A, B e C requer não apenas que C seja independente de A, de B e que A e B sejam independentes entre si; a independência coletiva requer que C seja independente de A ∩ B, de A ∩ Bc etc. A independência coletiva requer que a ocorrência do evento A ∩ B não afete a probabilidade de ocorrência de C etc.; por exemplo, requer que Pr(A ∩ B ∩ C) = Pr(A ∩ B) Pr(C) = Pr(A) Pr(B) Pr(C). A independência coletiva não decorre da independência dois-a-dois. Considere a situação de se ter Ω = {ω1 , ω2 , ω3 , ω4 }, eventos atômicos equiprováveis, e os eventos A = {ω1 , ω4 }, B = {ω2 , ω4 } e C = {ω3 , ω4 }. Dado que Pr(ωi ) = 1/4 para todo 1 ≤ i ≤ 4, temos que Pr(A) = Pr(B) = Pr(C) = 1/2. Também.

(33) 2.3. NOÇÕES DE ESTATÍSTICA. 19. tem-se que Pr(A ∩ B) = Pr(A ∩ C) = Pr(B ∩ C) = 1/4; logo A, B e C são independentes dois-a-dois. Por outro lado, Pr(A ∩ B ∩ C) = 1/4 6= 1/8 = Pr(A) Pr(B) Pr(C) e, portanto, os eventos A, B e C não são coletivamente independentes. Definição 8 (Independência condicional) Os eventos A1 , . . . , An são ‘condicionalmente independentes’ dado um evento C se Pr(Ai1 ∩ Ai2 ∩ · · · ∩ Ain | C) = Pr(Ai1 | C) Pr(Ai2 | C) · · · Pr(Ain | C). Teorema 8 (Teorema de Bayes) Sejam o espaço amostral Ω, o evento A e a partição B1 , . . . , Bk , então para todo 1 ≤ i ≤ k vale que Pr(A | Bi ) Pr(Bi ) . 1≤i≤k Pr(A | Bi ) Pr(Bi ). Pr(Bi | A) = P. Uma forma um pouco mais geral deste teorema (ver Pearl, 1988) permite condicionar em algum outro evento E e afirmar Pr(A | Bi , E) Pr(Bi | E) . 1≤i≤k Pr(A | Bi , E) Pr(Bi | E). Pr(Bi | A, E) = P. É freqüente encontrar a seguinte terminologia: ‘H’ denota a hipótese a ser verificada enquanto ‘e’ denota a evidência coletada. Pretende-se conhecer Pr(H | e) a partir da informação disponível, e para isso usa-se Pr(H | e) =. Pr(e | H) Pr(H) . Pr(e). (2.3). Muito freqüentemente não há interesse em trabalhar com Pr(e) e, para tanto, buscam-se outras formas de trabalhar com esta probabilidade conforme será visto a seguir. É muito comum querer comparar as probabilidades a posteriori de uma hipótese e de sua antítese, isto é, dada a evidência e deseja-se comparar as probabilidades Pr(H | e) e Pr(Hc | e). Note que a evidência aconteceu, tem-se interesse em saber o que é mais provável, se a ocorrência de H ou a ocorrência de Hc . Para fazer isto, pode-se calcular a razão Pr(e | H) Pr(H) Pr(H | e) = , Pr(Hc | e) Pr(e | Hc ) Pr(Hc ) e com isso elimina-se a necessidade de computar Pr(e). A razão Pr(H) Pr(H) = = O(H) Pr(Hc ) 1 − Pr(H). (2.4).

(34) 2.3. NOÇÕES DE ESTATÍSTICA. 20. é conhecida como ‘chances relativas da priori’ (prior odds), enquanto que a razão Pr(e | H) = L(e | H) Pr(e | Hc ) recebe o nome de ‘razão de verossimilhança’ (likelihood ratio). Pode-se escrever a equação (2.4) como O(H | e) = L(e | H)O(H), que recebe o nome de ‘chances a posteriori’ da hipótese H tendo sido observada a evidência e (posterior odds). Note que este objeto só compara as chances da hipótese versus as chances da antítese, dada a ocorrência de uma única evidência, e. Um conceito muito importante é o de ‘momento de ordem k da variável aleatória X’ que é definido pela integral k. E(X ) =. Z. xk f(x)dx. R. se existir e se a variável aleatória X for contínua, ou pelo somatório E(Xk ) =. X. xki Pr(X = xi ). i∈Z. se existir e se a variável aleatória X for discreta. Sendo importante informar que f(x) é a função densidade de probabilidade da v.a. X e que Pr(X = xi ) é a função de probabilidade desta variável. O primeiro momento, se existir, chama-se ‘média’ ou ‘esperança matemática’, e a diferença entre o segundo momento e o quadrado da média, se existir, chama-se ‘variância’. Se a variância existir, a sua raíz quadrada recebe o nome de ‘desvio padrão’. O exemplo a seguir ilustra os conceitos de distribuições conjunta, marginal e condicional, de esperança, de variância e de covariância. Considere um domínio simples, composto por apenas duas variáveis aleatórias binárias: X e Y. A atribuição do valor zero (um, respectivamente) a essas variáveis tem significado booleano de falso (verdadeiro, respectivamente). Suponha que a distribuição conjunta dessas duas variáveis aleatórias binárias está definida sobre quatro eventos atômicos de acordo com a tabela a seguir..

(35) 2.3. NOÇÕES DE ESTATÍSTICA. 21. (X, Y). Pr(X, Y). (0, 0) (0, 1). 0, 12 0, 08. (1, 0) (1, 1). 0, 16 0, 64. Outra tabela por meio da qual se pode representar a distribuição conjunta das variáveis aleatórias binárias X e Y é mostrada abaixo. X\Y 0 1. 0. 1. 0,12 0,08 0,16 0,64. A distribuição conjunta permite calcular a probabilidade de qualquer evento (simples ou composto). Por conseguinte, a partir da tabela acima, pode-se calcular a probabilidade de qualquer evento, como, por exemplo, Pr(Y = 1 | X = 0). Essa probabilidade é calculada como segue: Pr(Y = 1, X = 0) Pr(X = 0) Pr(Y = 1, X = 0) = P j=0,1 Pr(X = 0, Y = j). Pr(Y = 1 | X = 0) =. Pr(Y = 1, X = 0) Pr(X = 0, Y = 0) + Pr(X = 0, Y = 1) 0, 08 = = 0, 40. 0, 12 + 0, 08 =. A distribuição marginal de cada variável aleatória é a lei que a governa sem considerar as outras. Logo, a distribuição de marginal de X é dada pela função de probabilidade ((0, 2/10), (1, 8/10)), ao passo que a de Y é dada pela função de probabilidade ((0, 28/100), (1, 72/100)). As variáveis aleatórias X e Y serão independentes se para todo par de valores i, j valer que Pr((X, Y) = (i, j)) = Pr(X = i) Pr(Y = j). Verifica-se se vale a independência com, por exemplo, Pr((X, Y) = (1, 1)) = 0, 64 Pr(X = 1) · Pr(Y = 1) = 0, 80 · 0, 72 = 0, 576. Como Pr((X, Y) = (1, 1)) 6= Pr(X = 1) · Pr(Y = 1), X e Y não são independentes. A distribuição condicional de uma variável aleatória é a lei que a governa, dado o conhecimento da ocorrência de outras variáveis aleatórias. Por exem-.

(36) 2.4. COMENTÁRIOS. 22. plo, Pr(Y = i | X(ω) = 0). Definindo W = (Y | X(ω) = 0), a lei que governa W é dada por ((0, 6/10), (1, 4/10)). Analogamente, definindo-se Z = (X | Y(ω) = 1), a lei que descreve o comportamento de Z é ((0, 1/9), (1, 8/9)). As esperanças e variâncias dessas duas últimas variáveis aleatórias podem ser facilmente calculadas. Para W tem-se: 4 4 6 +1· = , 10 10 10 6 4 4 E(W 2 ) = 02 · + 12 · = , 10 10 10 16 6 4 − = . Var(W) = E(W 2 ) − E2 (W) = 10 100 25 E(W) = 0 ·. A covariância e a correlação entre duas variáveis aleatórias descrevem a associação entre elas: Cov(X, Y) = E(XY) − E(X)E(Y) e. ρ(X, Y) = p. Cov(X, Y) . Var(X)Var(Y). No caso em questão, tem-se que a distribuição de XY é caracterizada pela função de probabilidade ((0, 9/25), (1, 16/25)), logo E(XY) = 0, 64. Cov(X, Y) = 0, 64 − 0, 80 · 0, 72 = 0, 064.. Com isso,. 2.4 Comentários No presente capítulo, foram abordados alguns dos conceitos de probabilidade e de estatística que serão úteis no entendimento das redes bayesianas explanadas no próximo capítulo. Dentre os conceitos aqui discutidos, estão: variáveis aleatórias, eventos complementares e mutuamente exclusivos, probabilidade condicional e incondicional, independência condicional, dentre outros..

(37) Capítulo 3 Redes Bayesianas: Fundamentação Teórica Neste capítulo, serão enfocados os conceitos de maior relevância sobre redes bayesianas cujo conhecimento se faz necessário aos que pretendem utilizar essa abordagem como meio de representação do conhecimento. Dentre os tópicos abordados, estão a construção de uma rede bayesiana e a inferência nesse tipo de rede probabilística.. 3.1 Incerteza Os seres humanos têm grande habilidade de tirar conclusões úteis a partir de informações incompletas e mal formadas. Isso é observado cotidianamente e, na grande maioria das vezes, essa atividade é realizada com sucesso. Analise, por exemplo, como é feito um diagnóstico médico, visto que qualquer tipo de diagnóstico está intimamente ligado à incerteza. O paciente, inicialmente, procura um cardiologista, haja vista que está sentido dores próximo ao coração e bastante cansaço. Ao se dirigir ao consultório médico, o cardiologista irá solicitar ao paciente que lhe informe os sintomas (evidências). Após isso, o médico provavelmente irá pedir que o paciente faça alguns exames que o auxiliarão no diagnóstico da doença (causa). Ao receber os laudos dos exames (sinais), o cardiologista irá analisá-los e, juntamente com as informações que lhe foram passadas pelo paciente (sintomas) e com a experiência que adquiriu com os anos de trabalho (paradigma), tentará diagnosticar a doença. Apesar de, em grande parte dos casos, o resultado obtido ser correto, não há garantia alguma. Isso ocorre porque o médico não possui informações precisas e suficientes para descobrir a enfermidade do paciente, tendo, pois, que lidar com incerteza. 23.

(38) 3.2. NOTAÇÃO E DEFINIÇÕES. 24. 3.2 Notação e Definições A rede bayesiana —uma das abordagens estocásticas para a incerteza— é uma ferramenta que provê o cálculo de distribuições de probabilidades (conjuntas, marginais e condicionais) de conjuntos de variáveis aleatórias (Lucke, 1995). Essa informação é relevante e, tipicamente, não é evidente a partir do modelo do fenômeno. Essa rede probabilística pode ser vista como um grafo orientado e acíclico cujos nós são identificados como variáveis aleatórias com distribuições caracterizadas por tabelas de probabilidade ou leis condicionais. A estrutura do grafo descreve a dependência entre as variáveis aleatórias. Esse tipo de rede pode ser especificado como segue: 1. Os nós da rede representam variáveis aleatórias. 2. Os nós são conectados por meio de setas. Se houver uma seta do nó P até o nó F, P será denominado pai de F (seu filho). 3. Cada nó Xi tem uma probabilidade condicional Pr(Xi | Pais(Xi )) que quantifica o efeito dos pais sobre o nó filho. 4. A distribuição da variável aleatória Xi , dados todos os nós que a precedem, só depende dos seus pais. Dentre as vantagens das redes bayesianas, tem-se: • representação e manipulação da incerteza baseadas em modelos matemáticos; • modelagem do conhecimento de forma intuitiva acerca do domínio; • permissão à realização de inferência causal, de diagnóstico, intercausal ou mista.. 3.3 Tratamento do Conhecimento Incerto Na seção seguinte, será usada uma rede bayesiana para se representar o processo que ocorre na efetuação de uma compra num sistema de compras online..

(39) 3.3. TRATAMENTO DO CONHECIMENTO INCERTO. 25. 3.3.1 Sistema de Compras Ao efetuar uma compra pela Internet utilizando um sistema de compras, como o Mercado Pago (MP, ver http://www.mercadolivre.com.br), o sistema encaminha uma notificação ao comprador (CNMP) e uma ao vendedor (VNMP), as quais podem perder-se. Sendo o vendedor notificado, a venda será processada (VP), havendo uma probabilidade de ocorrência associada a essa operação. Após isso, o vendedor entrará em contato com o comprador (CNV) e postará a mercadoria (PM); ambos os eventos têm probabilidades de ocorrência associadas. Executadas essas duas etapas, o comprador poderá conferir a postagem (CCP) através das informações que os correios (CDIP) irão, provavelmente, disponibilizar via Web. A partir da postagem, a mercadoria será entregue (ME), havendo uma probabilidade de ocorrência associada à essa operação; o vendedor será provavelmente qualificado (CQP), seguindo a (provável) liberação do dinheiro (PL) e o comprador, por sua vez, será qualificado pelo vendedor (CQ). A Figura 3.1 mostra esta rede de causas e efeitos. Para a especificação de uma rede estar completa, é necessário fornecer a probabilidade de cada variável aleatória dadas todas as configurações possíveis das variáveis da qual depende, gerando a chamada tabela de probabilidade condicional, ou TPC. A Figura 3.1 mostra apenas uma TPC, a partir da qual se sabe que a probabilidade de PM ocorrer dado que VP ocorreu é 80%, ou seja, Pr(PM = 1 | VP = 1) = 80%, e que a probabilidade de PM ocorrer dado que VP não ocorreu é 0, isto é, Pr(PM = 0 | VP = 0) = 0. Nela e no restante do texto, a dependência é denotada apenas como “Pr(PM | ·)” sem fazer menção explícita às variáves aleatórias condicionantes. Uma relação indireta, a partir dessas premissas, pode ser observada: a relação entre os correios disponibilizarem as informações de postagem e o dinheiro ser liberado ao vendedor. Essa questão é de difícil solução, já que, por não receber nenhuma confirmação de envio por parte dos correios, resta ao comprador a confiança no vendedor; por várias vezes a encomenda demora a chegar, ficando o comprador alheio ao que ocorre. Sabendo-se que o comprador pode desconfiar do vendedor, isso pode aparentar uma tentativa deste enganar aquele, o qual reterá o pagamento. Modelar esse problema em uma rede probabilística não é difícil, já que este formalismo requer apenas a probabilidade das relações causais diretas. Porém, como resultado, obtém-se uma ferramenta poderosa, capaz de efetuar inferências indiretas, como a proposta. Nesse âmbito, muitas questões podem ser respondidas, sendo possível analisar qualquer relação, por mais indireta que pareça..

Referências

Documentos relacionados

Depois de exibido o modelo de distribuição orçamentária utilizado pelo MEC para financiamento das IFES, são discutidas algumas considerações acerca do REUNI para que se

Em 2008 foram iniciadas na Faculdade de Educação Física e Desportos (FAEFID) as obras para a reestruturação de seu espaço físico. Foram investidos 16 milhões

Ao ampliarmos um pouco mais a reflexão, poderemos retomar novamen- te a importância do professor no desenvolvimento de relações mais próximas com as famílias, fato que nos remete a

Não obstante a reconhecida necessidade desses serviços, tem-se observado graves falhas na gestão dos contratos de fornecimento de mão de obra terceirizada, bem

Apesar da melhora de desempenho nas compras dos setores pesquisados, os instrumentos de pesquisa utilizados permitiram verificar que na Universidade Federal de

intitulado “O Plano de Desenvolvimento da Educação: razões, princípios e programas” (BRASIL, 2007d), o PDE tem a intenção de “ser mais do que a tradução..

Universidade Federal de Juiz de Fora União Nacional dos Estudantes.. Breve contextualização ... O caso da Universidade Federal de Juiz de Fora ... Análise dos indicadores da UFJF...

Dessa forma, diante das questões apontadas no segundo capítulo, com os entraves enfrentados pela Gerência de Pós-compra da UFJF, como a falta de aplicação de