• Nenhum resultado encontrado

Mineração de Dados em Biologia Molecular

N/A
N/A
Protected

Academic year: 2021

Share "Mineração de Dados em Biologia Molecular"

Copied!
13
0
0

Texto

(1)

Mineração de Dados em

Biologia Molecular

Docente: André C. P. L. F. de Carvalho PAE: Victor Hugo Barella

Mineração de dados

André Ponce de Leon F de Carvalho 2

Tópicos

Introdução

Mineração de Dados

Aprendizado de Máquina

Tarefas Preditivas

Tarefas Descritivas

André Ponce de Leon F de Carvalho 3

Lembrando: KDD

Dados originais Dados alvo Dados Pré-processados Dados transformados Padrões Conhecimento Seleção Pré-processamento e Limpeza Transformação Mineração de Dados Avaliação Fayyad et al 1997

André Ponce de Leon F de Carvalho 4

Introdução

 Definições

MD é a busca por informação valiosa em grandes

volumes de dados

(S. M. Weiss and N. Indurkhya)

MD é a análise de conjuntos de dados

observacionais (geralmente grandes) para encontrar relacionamentos desconhecidos em novas formas que são ambos compreensíveis e úteis para o proprietário dos dados

(D. Hand, H. Mannila and P. Smyth)

André Ponce de Leon F de Carvalho 5

Introdução

Estatística Computação

Mineração de Dados

André Ponce de Leon F de Carvalho 6

Conceitos Básicos de MD

MD extrai modelos a partir de dados

observados

 Modelos representam o conhecimento existente nos dados

Análise de modelo por ser humano

 Subjetivo

 Limitado a poucos dados

 Permite validar se modelos extraídos trazem conhecimento útil ou interessante

(2)

André Ponce de Leon F de Carvalho 7

Conceitos Básicos de MD

MD lida com dados de observações, não

dados experimentais

 Dados que foram coletados para um propósito diferente de análise por MD

Ex. Dados coletados para atualizar registros de pacientes de um hospital

MD geralmente utiliza algoritmos de

Aprendizado de Máquina (AM)

Aprendizado de Máquina

Revolução industrial automatizou

trabalho manual

Revolução da informação automatizou

trabalho mental

Revolução de aprendizado de máquina

automatiza a própria automação

André C P L F de Carvalho 8

9

Aprendizado de Máquina

 Investiga técnicas computacionais capazes de

adquirir automaticamente

 Novas habilidades, conhecimentos e formas de

organizar o conhecimento existente

 Definições

 Área de pesquisa que dá aos computadores a

habilidade de aprender sem ser explicitamente programado (Arthur Samuel, 1959)

 Técnicas capazes de melhorar seu desempenho em

uma dada tarefa utilizando experiências prévias (Mitchell, 1997) André C P L F de Carvalho

AM na Computação

10 Computação tradicional Escreve algoritmo detalhando como resolver um problema Aprendizado de Máquina Aprende a resolver um problema olhando dados do problema André C P L F de Carvalho

AM na Computação

11 Computação tradicional Pessoas programam Aprendizado de Máquina Computadores programam André C P L F de Carvalho

AM na Computação

Programação

 Programa funcionar 90% das vezes é terrível

Aprendizado de máquina

 Modelo funcionar 90% das vezes pode ser o possível

E muito bom Suficiente para ser útil

(3)

13

Tarefas de AM

Tarefas

Preditivas Descritivas

Classificação Regressão Agrupamento Associação Sumarização

Aplicações de AM

 AM esta presente em várias atividades do

nosso dia-a-dia

 AM é utilizado para

 Recomendar que mensagens mostrar em

aplicativos de redes sociais

 Filtrar spams de emails

 Decidir que resultados (e anúncios) e em que

ordem mostrar para uma busca na internet

 Recomendar novos filmes ou livros

14 André C P L F de Carvalho

15

Aplicações clássicas de AM

Aprender a reconhecer palavras faladas

SPHINX (Lee 1989)

Aprender a conduzir um automóvel

ALVINN (Pomerleau 1989)

Aprender a classificar objetos celestiais

(Fayyad et al 1995)

Aprender a jogar gamão

TD-GAMMON (Tesauro 1992) André C P L F de Carvalho 16

ALVINN

André C P L F de Carvalho 17

ALVINN

Autonomous Land Vehicle In a Neural

Network

 Sistema automático de navegação para

automóveis baseado em redes neurais

Tese de doutorado da CMU

 Comunicação por uma câmera montada no veículo  Dirigiu a 110 Km/h em uma rodovia pública

americana em 1989

De costa a costa por 4500 Km (com exceção de 80 Km)

André C P L F de Carvalho

Carros autônomos

 Principais montadoras de automóveis  Empresas de software

 Baidu  Google

 Empresas de outros setores

 Continental  NVIDIA

 Várias cidades já permitem veículos

autônomos

(4)

Carros autônomos

 Mobilidade sob demanda

 Carro deixa de ser produto para ser serviço

Ao invés de comprar, compartilhar

 Uso de carros

 Mudar de 90% estacionado para 90% em

movimento

 Custo por km 10 vezes menor que ser dono  80% menos carros serão necessários

80% menos locais de estacionamento

© André de Carvalho - ICMC/USP 19

Carros autônomos

André C P L F de Carvalho 20

Google Volvo

Carros da Google

Stanford Artificial Intelligence

Laboratory

Comunicação por sensor (topo do carro)

 Recebe informação do

Google street view

 Atua no volante de direção e nos pneus  Cerca de 2 milhões de Km percorridos

Menos acidentes que condutores humanos (EUA)

21

André C P L F de Carvalho 22

Aprendizado de Máquina

Algoritmos de AM aprendem a partir de

um conjunto de exemplos

 Indução de hipótese, função ou modelo em um processo de treinamento

Entre possíveis hipóteses em um espaço de busca

Todo algoritmo de AM possui um viés

 Prefere uma hipótese ou conjunto de hipóteses em detrimento de outras

André C P L F de Carvalho

23

Espaço de busca de hipóteses

André C P L F de Carvalho h h h h h h h h h h hh h h h h h h Atributo preditivo 1 Atributo pr editi vo 2 h h h h h h h h h h h h h h 24

Viés indutivo

Viés de preferência ou busca

 Ordem como as hipóteses são pesquisadas no

espaço de hipóteses

 Ex.: Começar pelas hipóteses mais simples

(curtas)

Viés de representação ou linguagem

 Define o espaço de busca de hipóteses

Restringe hipóteses que podem ser geradas

 Ex.: hipóteses devem ter o formato de árvores de

decisão

(5)

25

Viés de busca

André C P L F de Carvalho h h3 h1 h2 h h h h h h h h h h h h h h Atributo preditivo 1 Atributo pr editi vo 2 h h h h h h h h h h h h h h 26

Viés de representação

Peso Sexo ≥ 50

Doente Saudável Doente < 50

M F

Se Peso ≥ 50 então Doente Se Peso < 50 e Sexo = M então Doente Se Peso < 50 e Sexo = F então Saudável

0.45 -0.40 0.54 0.12 0.98 0.37 -0.45 0.11 0.91 0.34 -0.20 0.83 -0.29 0.32 -0.25 -0.51 0.41 0.70 Árvore de decisão Redes neurais Conjunto de regras André C P L F de Carvalho 27

Viés indutivo

Algoritmos de AM precisam ter um viés

indutivo

 Necessário para restringir o espaço de busca

 Sem viés, não há aprendizado (generalização)

Regras / equações seriam especializados para os dados usados para a indução do modelo

André C P L F de Carvalho

 Estruturados

 Mais facilmente analisados por técnicas de MD  Ex.: Planilhas e tabelas atributo-valor

 Não estruturados

 Mais facilmente analisados por seres humanos  Ex.: Imagens, sequência de DNA, textos, páginas

na web, emails, mensagens

Para DM, são convertidos para um conjunto de dados

estruturado

28

Conjuntos de dados

André C P L F de Carvalho

Dados não estruturados

29 André C P L F de Carvalho Girafa Zebra 30

Dados estruturados

500 110 Manchas Girafa 440 90 Manchas Girafa 240 45 Listas Zebra 520 115 Manchas Girafa 260 50 Listas Zebra 230 50 Listas Zebra Altura Tamanho Rabo Textura Classe

Atributos de entrada (preditivos)

Exemplos (objetos, instâncias)

Atributo alvo André C P L F de Carvalho

(6)

Rotulados

 Cada objeto recebe um rótulo Classe

Valor real

Não rotulados

 Objetos não recebem rótulos

Parcialmente rotulados

 Alguns objetos recebem rótulos

31

Conjuntos de dados

André C P L F de Carvalho 32

Dados estruturados rotulados

500 110 Manchas Girafa 440 90 Manchas Girafa 240 45 Listas Zebra 520 115 Manchas Girafa 260 50 Listas Zebra 230 50 Listas Zebra Altura Tamanho Rabo Textura Classe

Atributos de entrada (preditivos)

Exemplos (objetos, instâncias) Atributo alvo André C P L F de Carvalho 33

Dados estruturados rotulados

João 70 37.4 70 94 12 Saudável Maria 38 39.5 30 40 14 Doente José 39 38.0 60 85 18 Doente Sílvia 38 37.4 15 60 13 Saudável Pedro 37 40.2 90 78 14 Doente Luísa 42 37.2 52 60 11 Saudável Nome Batim. Temp. Idade Peso Pressão Diagnóstico

Atributos de entrada (preditivos)

Exemplos (objetos, instâncias)

Atributo alvo

André C P L F de Carvalho 34

Dados estruturados não rotulados

João 70 37.4 70 94 12 Maria 38 39.5 30 40 14 José 39 38.0 60 85 18 Sílvia 38 37.4 15 60 13 Pedro 37 40.2 90 78 14 Luísa 42 37.2 52 60 11 Nome Batim. Temp. Idade Peso Pressão

Atributos de entrada (preditivos)

Exemplos (objetos, instâncias) André C P L F de Carvalho

Tipos de aprendizado

 Supervisionado

 Sabe a saída desejada (correta) para cada entrada

Rótulo de cada objeto

 Não supervisionado

 Algoritmo aprende sem utilizar o rótulo dos

objetos  Semi-supervisionado  Aprendizado ativo  Por reforço 35 André C P L F de Carvalho 36

Tarefas de aprendizado

Tarefa Preditiva Descritiva

Classificação Regressão Agrupamento Associação Sumarização

(7)

Algoritmos de AM descritivos

Descrevem ou sumarizam um conjunto

de dados

 Indução de modelo (treinamento) usa todo o

conjunto de dados

 Geralmente indução ocorre por aprendizado não supervisionado

E.X.: Agrupamento de dados

© André de Carvalho - ICMC/USP 37 © André de Carvalho - ICMC/USP 38

Agrupamento de dados (Clustering)

Objetivo: organizar exemplos não

rotulados em grupos (clusters)

 De acordo com uma medida de similaridade ou correlação entre eles

 Aprendizado não supervisionado

Não existe conhecimento anterior sobre:

 Número de grupos (geralmente)  Significado dos grupos

André C P L F de Carvalho 39

Algoritmos de agrupamento

x11 x12 ... x1m x21 x22 ... x2m xn1 xn2 ... xnm Algoritmo de Agrupamento de dados f(x) Modelo de partição dos dados conjunto de dados . . . . . . . . . Treinamento Indução .

© André de Carvalho - ICMC/USP 40

Agrupamento de dados

P

es

o

Exame 1

© André de Carvalho - ICMC/USP 41

Agrupamento de dados

Exame 1

P

es

o

© André de Carvalho - ICMC/USP 42

Algoritmos de agrupamento

K-médias

FCM

DBSCAN

Single-Link

(8)

Algoritmos de AM preditivos

 Induzem modelos (funções) preditivas

 Indução de modelos utiliza parte do conjunto de

dados

Subconjunto de treinamento

 Modelo pode ser aplicado a novos dados

(predição)

Subconjunto de teste

 Principais tarefas:

 Regressão  Classificação

André C P L F de Carvalho 43 André C P L F de Carvalho 44

Algoritmos de AM preditivos

x11 x12 ... x1m y1 x21 x22 ... x2m y2 xn1 xn2 ... xnm yn Algoritmo de AM f(x) Modelo para Classif. / Regres. conjunto de dados . . . . . . . . . . . . Treinamento

Classe ou valor numérico Modelo f(x) Previsão Teste Indução Dedução x1i X2i Xni . . . . Novo exemplo André C P L F de Carvalho 45

Tarefa de regressão

Objetivo: aprender uma função que

mapeia descrição de um exemplo em

um valor real

 Caso especial: análise de séries temporais

Exemplos:

 Prever valor de mercado de um imóvel  Prever o lucro de um empréstimo bancário  Prever tempo de internação de paciente

Exemplo de regressão

 Serviço de água da Cidade Y tem em um

arquivo a vazão diária do único rio da cidade para vários dias

 Parte da água é guardada em um reservatório

Para definir quanta água guardar no reservatório, precisa

prever a vazão do rio nos dias seguintes

Engenheiro consulta a vazão de 10 dias anteriores para prever a vazão dos próximos 4 dias

O Engenheiro da cidade está doente

 É possível utilizar um modelo para fazer essa

previsão? André C P L F de Carvalho 46 André C P L F de Carvalho 47

Exemplo de regressão

Dia André C P L F de Carvalho 48

Exemplo de regressão

Dia Função aproximada

(9)

André C P L F de Carvalho 49

Algoritmos de regressão

Árvores de Regressão

Redes Neurais Artificiais

Máquinas de Vetores de Suporte

Regressão Linear

André C P L F de Carvalho 50

Tarefa de classificação

Objetivo: aprender uma função que

associa descrição de um objeto a uma

classe

Exemplos:

 Definir a função de uma proteína  Distinguir

emails

entre

spam

e

ham

 Definir se um paciente tem uma doença

Exemplo de classificação

Posto médico da Vila Z

 Tem um arquivo com vários atendimentos, cada um com sintomas e diagnóstico  Zózimo, ao sentir-se mal, vai ao posto para

uma consulta médica

 O único médico está sobrecarregado Mas é possível anotar os sintomas

 É possível utilizar um modelo para fazer um pré-diagnóstico a partir dos sintomas?

André C P L F de Carvalho 51

Exemplo de classificação

Diagnóstico = problema de classificação

Sintomas anotados:

 Temperatura

André C P L F de Carvalho 52

André C P L F de Carvalho 53

Exemplo de classificação

Forma mais simples

Temperatura Saudável Doente 37 André C P L F de Carvalho 54

Exemplo de classificação

Forma mais simples

Função estimada: diagnóstico = f(temperatura) Se temperatura > 37 Então doente Senão saudável Saudável Doente 37 Temperatura

(10)

Exemplo de classificação

Basta encontrar um valor de

temperatura que separa

 Doentes  Saudáveis

Mas todo problema de classificação é

tão simples assim?

 Uso apenas da temperatura gera um bom modelo preditivo?

André C P L F de Carvalho 55 André C P L F de Carvalho 56

Exemplo de classificação

Supor que arquivo tenha mais pacientes

Temperatura

Saudável Doente

André C P L F de Carvalho 57

Exemplo de classificação

Indução de modelo fica mais difícil

Alternativa: considerar outros sintomas

para o diagnóstico

Temperatura Saudável Doente

Exemplo de classificação

Sintomas anotados:

 Temperatura

 Taxa de batimentos cardíacos

André C P L F de Carvalho 58

André C P L F de Carvalho 59

Classificação

Temperatura

Inclui taxa de batimentos

Saudável Doente

André C P L F de Carvalho 60

Classificação

Temperatura

Função linear permite diagnóstico

Nova função: Se a.t + b > 0 Então doente Senão saudável Saudável Doente

(11)

Classificação

 Basta encontrar uma função linear que

separa pacientes doentes de saudáveis

 Inclinação da reta e ponto onde cruza o eixo da

ordenada

 Espaço de pacientes

 Ordenada: taxa de batimentos  Abscissa: temperatura

 Mas toda tarefa de classificação é simples

assim?

André C P L F de Carvalho 61 André C P L F de Carvalho 62

Classificação

Temperatura

Supor que arquivo tenha mais pacientes

Saudável Doente

André C P L F de Carvalho 63

Classificação

Temperatura

Indução de modelo fica mais difícil

Saudável Doente

André C P L F de Carvalho 64

Classificação

Temperatura

Alternativa: usar função não linear

Saudável Doente Nova função: Muito complexa Para por aqui

André C P L F de Carvalho 65

Classificação

Temperatura

Supor que arquivo tenha mais pacientes

Saudável Doente Nova função: Muito extensa para por aqui

André C P L F de Carvalho 66

Classificação

Temperatura

Alternativa: usar função mais complexa

Saudável Doente Nova função: Muito complexa para por aqui

(12)

Classificação

Sintomas que poderiam permitir um

melhor modelo para diagnóstico:

 Batimentos cardíacos  Idade

 Peso  Pressão  Temperatura

 Taxas em uma amostra de sangue

André C P L F de Carvalho 67

Classificação

 Atributos preditivos procuram descrever a

tarefa a ser resolvida

 Em geral, quanto mais atributos preditivos são

extraídos, melhor (extração de atributos) Facilitam indução de bons modelos

 No entanto

Dificultam visualizar distribuição dos dados Podem incluir atributos irrelevantes,

redundantes. ...

Maldição da dimensionalidade

André C P L F de Carvalho 68

André C P L F de Carvalho 69

Algoritmos de classificação

Centenas de novos a cada ano

Principais

 Indução de Árvores de Decisão  Indução de conjuntos de regras  Redes Neurais

 Máquinas de Vetores de Suporte  K-NN

 Regressão Logística  Redes Bayesianas

Algoritmos de classificação

 Podem ser agrupados por diferentes critérios

 Baseados em distâncias K-NN  Baseados em otimização RNs  Baseados em probabilidade NB

 Baseados em procura (lógicos)

Indução de ADs

André C P L F de Carvalho 70

Algoritmos de classificação

 Podem ser agrupados por diferentes critérios

 Baseados em distâncias K-NN  Baseados em otimização RNs  Baseados em probabilidade NB

 Baseados em procura (lógicos)

Indução de ADs

André C P L F de Carvalho 71

Geométricos

© André de Carvalho - ICMC/USP 72

Conclusão

Aprendizado de Máquina

Algoritmos

 Viés indutivo 

Tipos de aprendizado

Tarefas de aprendizado

 Descritivas  Preditivas

(13)

Andre Ponce de Leon de Carvalho 73

Referências

Documentos relacionados

Verificou-se que os esforços obtidos para o sistema modificado obedecem à análise realizada através do ANSYS, pois as seções críticas, ou seja, aquelas que atingirão a

Existe articulação entre a extensão e as demais atividades acadêmicas na UCPel?. Quase sempre existe Sempre existe Poucas vezes existe

Confirmado pelo laboratório a partir da notificação pelo SVO 55 Descartado pelo laboratório a partir da notificação pelo SVO 22 Confirmado pelo laboratório em

[...] os limites do território não seriam, é bem verdade, imutáveis – pois as fronteiras podem ser alteradas, comumente pela força bruta –, mas cada espaço seria,

Este diesel foi adquirido da Refinaria Presidente Getúlio Vargas (REPAR), logo que saiu do processo de Hidrotratamento, não recebendo assim nenhuma mistura de biodiesel,

Nenhuma parte desta obra pode ser reproduzida ou transmitida por qualquerforina e ou quaisquer meios (eletrònico ou rnecdnico, incluindo Jotocòpia e gravaào) ou arquivada cm

Antes de conhecer Tony Singh (ou antes, Sir Tony, como tínhamos de lhe cha- mar porque andava seis cursos à frente do nosso), o único Tony que conhecia era o cão da nossa vizinha e

Ensaio clínico randomizado multicêntrico (19 centros), que incluiu 134 pacientes com artrite reativa que haviam apresentado falha no tratamento inicial com AINEs, tratados por 9