Mineração de Dados em
Biologia Molecular
Docente: André C. P. L. F. de Carvalho PAE: Victor Hugo Barella
Mineração de dados
André Ponce de Leon F de Carvalho 2
Tópicos
Introdução
Mineração de Dados
Aprendizado de Máquina
Tarefas Preditivas
Tarefas Descritivas
André Ponce de Leon F de Carvalho 3
Lembrando: KDD
Dados originais Dados alvo Dados Pré-processados Dados transformados Padrões Conhecimento Seleção Pré-processamento e Limpeza Transformação Mineração de Dados Avaliação Fayyad et al 1997André Ponce de Leon F de Carvalho 4
Introdução
Definições
MD é a busca por informação valiosa em grandes
volumes de dados
(S. M. Weiss and N. Indurkhya)
MD é a análise de conjuntos de dados
observacionais (geralmente grandes) para encontrar relacionamentos desconhecidos em novas formas que são ambos compreensíveis e úteis para o proprietário dos dados
(D. Hand, H. Mannila and P. Smyth)
André Ponce de Leon F de Carvalho 5
Introdução
Estatística Computação
Mineração de Dados
André Ponce de Leon F de Carvalho 6
Conceitos Básicos de MD
MD extrai modelos a partir de dados
observados
Modelos representam o conhecimento existente nos dados
Análise de modelo por ser humano
Subjetivo
Limitado a poucos dados
Permite validar se modelos extraídos trazem conhecimento útil ou interessante
André Ponce de Leon F de Carvalho 7
Conceitos Básicos de MD
MD lida com dados de observações, não
dados experimentais
Dados que foram coletados para um propósito diferente de análise por MD
Ex. Dados coletados para atualizar registros de pacientes de um hospital
MD geralmente utiliza algoritmos de
Aprendizado de Máquina (AM)
Aprendizado de Máquina
Revolução industrial automatizou
trabalho manual
Revolução da informação automatizou
trabalho mental
Revolução de aprendizado de máquina
automatiza a própria automação
André C P L F de Carvalho 8
9
Aprendizado de Máquina
Investiga técnicas computacionais capazes de
adquirir automaticamente
Novas habilidades, conhecimentos e formas de
organizar o conhecimento existente
Definições
Área de pesquisa que dá aos computadores a
habilidade de aprender sem ser explicitamente programado (Arthur Samuel, 1959)
Técnicas capazes de melhorar seu desempenho em
uma dada tarefa utilizando experiências prévias (Mitchell, 1997) André C P L F de Carvalho
AM na Computação
10 Computação tradicional Escreve algoritmo detalhando como resolver um problema Aprendizado de Máquina Aprende a resolver um problema olhando dados do problema André C P L F de CarvalhoAM na Computação
11 Computação tradicional Pessoas programam Aprendizado de Máquina Computadores programam André C P L F de CarvalhoAM na Computação
Programação
Programa funcionar 90% das vezes é terrível
Aprendizado de máquina
Modelo funcionar 90% das vezes pode ser o possível
E muito bom Suficiente para ser útil
13
Tarefas de AM
Tarefas
Preditivas Descritivas
Classificação Regressão Agrupamento Associação Sumarização
Aplicações de AM
AM esta presente em várias atividades do
nosso dia-a-dia
AM é utilizado para
Recomendar que mensagens mostrar em
aplicativos de redes sociais
Filtrar spams de emails
Decidir que resultados (e anúncios) e em que
ordem mostrar para uma busca na internet
Recomendar novos filmes ou livros
14 André C P L F de Carvalho
15
Aplicações clássicas de AM
Aprender a reconhecer palavras faladas
SPHINX (Lee 1989)
Aprender a conduzir um automóvel
ALVINN (Pomerleau 1989)
Aprender a classificar objetos celestiais
(Fayyad et al 1995)
Aprender a jogar gamão
TD-GAMMON (Tesauro 1992) André C P L F de Carvalho 16
ALVINN
André C P L F de Carvalho 17ALVINN
Autonomous Land Vehicle In a Neural
Network
Sistema automático de navegação para
automóveis baseado em redes neurais
Tese de doutorado da CMU
Comunicação por uma câmera montada no veículo Dirigiu a 110 Km/h em uma rodovia pública
americana em 1989
De costa a costa por 4500 Km (com exceção de 80 Km)
André C P L F de Carvalho
Carros autônomos
Principais montadoras de automóveis Empresas de software
Baidu Google
Empresas de outros setores
Continental NVIDIA
Várias cidades já permitem veículos
autônomos
Carros autônomos
Mobilidade sob demanda
Carro deixa de ser produto para ser serviço
Ao invés de comprar, compartilhar
Uso de carros
Mudar de 90% estacionado para 90% em
movimento
Custo por km 10 vezes menor que ser dono 80% menos carros serão necessários
80% menos locais de estacionamento
© André de Carvalho - ICMC/USP 19
Carros autônomos
André C P L F de Carvalho 20
Google Volvo
Carros da Google
Stanford Artificial Intelligence
Laboratory
Comunicação por sensor (topo do carro)
Recebe informação do
Google street view
Atua no volante de direção e nos pneus Cerca de 2 milhões de Km percorridosMenos acidentes que condutores humanos (EUA)
21
André C P L F de Carvalho 22
Aprendizado de Máquina
Algoritmos de AM aprendem a partir de
um conjunto de exemplos
Indução de hipótese, função ou modelo em um processo de treinamento
Entre possíveis hipóteses em um espaço de busca
Todo algoritmo de AM possui um viés
Prefere uma hipótese ou conjunto de hipóteses em detrimento de outras
André C P L F de Carvalho
23
Espaço de busca de hipóteses
André C P L F de Carvalho h h h h h h h h h h hh h h h h h h Atributo preditivo 1 Atributo pr editi vo 2 h h h h h h h h h h h h h h 24
Viés indutivo
Viés de preferência ou busca
Ordem como as hipóteses são pesquisadas no
espaço de hipóteses
Ex.: Começar pelas hipóteses mais simples
(curtas)
Viés de representação ou linguagem
Define o espaço de busca de hipóteses
Restringe hipóteses que podem ser geradas
Ex.: hipóteses devem ter o formato de árvores de
decisão
25
Viés de busca
André C P L F de Carvalho h h3 h1 h2 h h h h h h h h h h h h h h Atributo preditivo 1 Atributo pr editi vo 2 h h h h h h h h h h h h h h 26Viés de representação
Peso Sexo ≥ 50Doente Saudável Doente < 50
M F
Se Peso ≥ 50 então Doente Se Peso < 50 e Sexo = M então Doente Se Peso < 50 e Sexo = F então Saudável
0.45 -0.40 0.54 0.12 0.98 0.37 -0.45 0.11 0.91 0.34 -0.20 0.83 -0.29 0.32 -0.25 -0.51 0.41 0.70 Árvore de decisão Redes neurais Conjunto de regras André C P L F de Carvalho 27
Viés indutivo
Algoritmos de AM precisam ter um viés
indutivo
Necessário para restringir o espaço de busca
Sem viés, não há aprendizado (generalização)
Regras / equações seriam especializados para os dados usados para a indução do modelo
André C P L F de Carvalho
Estruturados
Mais facilmente analisados por técnicas de MD Ex.: Planilhas e tabelas atributo-valor
Não estruturados
Mais facilmente analisados por seres humanos Ex.: Imagens, sequência de DNA, textos, páginas
na web, emails, mensagens
Para DM, são convertidos para um conjunto de dados
estruturado
28
Conjuntos de dados
André C P L F de Carvalho
Dados não estruturados
29 André C P L F de Carvalho Girafa Zebra 30
Dados estruturados
500 110 Manchas Girafa 440 90 Manchas Girafa 240 45 Listas Zebra 520 115 Manchas Girafa 260 50 Listas Zebra 230 50 Listas Zebra Altura Tamanho Rabo Textura ClasseAtributos de entrada (preditivos)
Exemplos (objetos, instâncias)
Atributo alvo André C P L F de Carvalho
Rotulados
Cada objeto recebe um rótulo Classe
Valor real
Não rotulados
Objetos não recebem rótulos
Parcialmente rotulados
Alguns objetos recebem rótulos
31
Conjuntos de dados
André C P L F de Carvalho 32
Dados estruturados rotulados
500 110 Manchas Girafa 440 90 Manchas Girafa 240 45 Listas Zebra 520 115 Manchas Girafa 260 50 Listas Zebra 230 50 Listas Zebra Altura Tamanho Rabo Textura Classe
Atributos de entrada (preditivos)
Exemplos (objetos, instâncias) Atributo alvo André C P L F de Carvalho 33
Dados estruturados rotulados
João 70 37.4 70 94 12 Saudável Maria 38 39.5 30 40 14 Doente José 39 38.0 60 85 18 Doente Sílvia 38 37.4 15 60 13 Saudável Pedro 37 40.2 90 78 14 Doente Luísa 42 37.2 52 60 11 Saudável Nome Batim. Temp. Idade Peso Pressão Diagnóstico
Atributos de entrada (preditivos)
Exemplos (objetos, instâncias)
Atributo alvo
André C P L F de Carvalho 34
Dados estruturados não rotulados
João 70 37.4 70 94 12 Maria 38 39.5 30 40 14 José 39 38.0 60 85 18 Sílvia 38 37.4 15 60 13 Pedro 37 40.2 90 78 14 Luísa 42 37.2 52 60 11 Nome Batim. Temp. Idade Peso Pressão
Atributos de entrada (preditivos)
Exemplos (objetos, instâncias) André C P L F de Carvalho
Tipos de aprendizado
Supervisionado Sabe a saída desejada (correta) para cada entrada
Rótulo de cada objeto
Não supervisionado
Algoritmo aprende sem utilizar o rótulo dos
objetos Semi-supervisionado Aprendizado ativo Por reforço 35 André C P L F de Carvalho 36
Tarefas de aprendizado
Tarefa Preditiva DescritivaClassificação Regressão Agrupamento Associação Sumarização
Algoritmos de AM descritivos
Descrevem ou sumarizam um conjunto
de dados
Indução de modelo (treinamento) usa todo o
conjunto de dados
Geralmente indução ocorre por aprendizado não supervisionado
E.X.: Agrupamento de dados
© André de Carvalho - ICMC/USP 37 © André de Carvalho - ICMC/USP 38
Agrupamento de dados (Clustering)
Objetivo: organizar exemplos não
rotulados em grupos (clusters)
De acordo com uma medida de similaridade ou correlação entre eles
Aprendizado não supervisionado
Não existe conhecimento anterior sobre:
Número de grupos (geralmente) Significado dos grupos
André C P L F de Carvalho 39
Algoritmos de agrupamento
x11 x12 ... x1m x21 x22 ... x2m xn1 xn2 ... xnm Algoritmo de Agrupamento de dados f(x) Modelo de partição dos dados conjunto de dados . . . . . . . . . Treinamento Indução .© André de Carvalho - ICMC/USP 40
Agrupamento de dados
P
es
o
Exame 1
© André de Carvalho - ICMC/USP 41
Agrupamento de dados
Exame 1
P
es
o
© André de Carvalho - ICMC/USP 42
Algoritmos de agrupamento
K-médias
FCM
DBSCAN
Single-Link
Algoritmos de AM preditivos
Induzem modelos (funções) preditivas
Indução de modelos utiliza parte do conjunto de
dados
Subconjunto de treinamento
Modelo pode ser aplicado a novos dados
(predição)
Subconjunto de teste
Principais tarefas:
Regressão Classificação
André C P L F de Carvalho 43 André C P L F de Carvalho 44
Algoritmos de AM preditivos
x11 x12 ... x1m y1 x21 x22 ... x2m y2 xn1 xn2 ... xnm yn Algoritmo de AM f(x) Modelo para Classif. / Regres. conjunto de dados . . . . . . . . . . . . TreinamentoClasse ou valor numérico Modelo f(x) Previsão Teste Indução Dedução x1i X2i Xni . . . . Novo exemplo André C P L F de Carvalho 45
Tarefa de regressão
Objetivo: aprender uma função que
mapeia descrição de um exemplo em
um valor real
Caso especial: análise de séries temporais
Exemplos:
Prever valor de mercado de um imóvel Prever o lucro de um empréstimo bancário Prever tempo de internação de paciente
Exemplo de regressão
Serviço de água da Cidade Y tem em um
arquivo a vazão diária do único rio da cidade para vários dias
Parte da água é guardada em um reservatório
Para definir quanta água guardar no reservatório, precisa
prever a vazão do rio nos dias seguintes
Engenheiro consulta a vazão de 10 dias anteriores para prever a vazão dos próximos 4 dias
O Engenheiro da cidade está doente
É possível utilizar um modelo para fazer essa
previsão? André C P L F de Carvalho 46 André C P L F de Carvalho 47
Exemplo de regressão
Dia André C P L F de Carvalho 48Exemplo de regressão
Dia Função aproximadaAndré C P L F de Carvalho 49
Algoritmos de regressão
Árvores de Regressão
Redes Neurais Artificiais
Máquinas de Vetores de Suporte
Regressão Linear
André C P L F de Carvalho 50
Tarefa de classificação
Objetivo: aprender uma função que
associa descrição de um objeto a uma
classe
Exemplos:
Definir a função de uma proteína Distinguir
emails
entrespam
eham
Definir se um paciente tem uma doençaExemplo de classificação
Posto médico da Vila Z
Tem um arquivo com vários atendimentos, cada um com sintomas e diagnóstico Zózimo, ao sentir-se mal, vai ao posto para
uma consulta médica
O único médico está sobrecarregado Mas é possível anotar os sintomas
É possível utilizar um modelo para fazer um pré-diagnóstico a partir dos sintomas?
André C P L F de Carvalho 51
Exemplo de classificação
Diagnóstico = problema de classificação
Sintomas anotados:
Temperatura
André C P L F de Carvalho 52
André C P L F de Carvalho 53
Exemplo de classificação
Forma mais simples
Temperatura Saudável Doente 37 André C P L F de Carvalho 54
Exemplo de classificação
Forma mais simples
Função estimada: diagnóstico = f(temperatura) Se temperatura > 37 Então doente Senão saudável Saudável Doente 37 Temperatura
Exemplo de classificação
Basta encontrar um valor de
temperatura que separa
Doentes Saudáveis
Mas todo problema de classificação é
tão simples assim?
Uso apenas da temperatura gera um bom modelo preditivo?
André C P L F de Carvalho 55 André C P L F de Carvalho 56
Exemplo de classificação
Supor que arquivo tenha mais pacientes
Temperatura
Saudável Doente
André C P L F de Carvalho 57
Exemplo de classificação
Indução de modelo fica mais difícil
Alternativa: considerar outros sintomas
para o diagnóstico
Temperatura Saudável DoenteExemplo de classificação
Sintomas anotados:
Temperatura Taxa de batimentos cardíacos
André C P L F de Carvalho 58
André C P L F de Carvalho 59
Classificação
Temperatura
Inclui taxa de batimentos
Saudável Doente
André C P L F de Carvalho 60
Classificação
Temperatura
Função linear permite diagnóstico
Nova função: Se a.t + b > 0 Então doente Senão saudável Saudável Doente
Classificação
Basta encontrar uma função linear que
separa pacientes doentes de saudáveis
Inclinação da reta e ponto onde cruza o eixo da
ordenada
Espaço de pacientes
Ordenada: taxa de batimentos Abscissa: temperatura
Mas toda tarefa de classificação é simples
assim?
André C P L F de Carvalho 61 André C P L F de Carvalho 62
Classificação
Temperatura
Supor que arquivo tenha mais pacientes
Saudável Doente
André C P L F de Carvalho 63
Classificação
Temperatura
Indução de modelo fica mais difícil
Saudável Doente
André C P L F de Carvalho 64
Classificação
Temperatura
Alternativa: usar função não linear
Saudável Doente Nova função: Muito complexa Para por aqui
André C P L F de Carvalho 65
Classificação
Temperatura
Supor que arquivo tenha mais pacientes
Saudável Doente Nova função: Muito extensa para por aqui
André C P L F de Carvalho 66
Classificação
Temperatura
Alternativa: usar função mais complexa
Saudável Doente Nova função: Muito complexa para por aqui
Classificação
Sintomas que poderiam permitir um
melhor modelo para diagnóstico:
Batimentos cardíacos Idade
Peso Pressão Temperatura
Taxas em uma amostra de sangue
André C P L F de Carvalho 67
Classificação
Atributos preditivos procuram descrever a
tarefa a ser resolvida
Em geral, quanto mais atributos preditivos são
extraídos, melhor (extração de atributos) Facilitam indução de bons modelos
No entanto
Dificultam visualizar distribuição dos dados Podem incluir atributos irrelevantes,
redundantes. ...
Maldição da dimensionalidade
André C P L F de Carvalho 68
André C P L F de Carvalho 69
Algoritmos de classificação
Centenas de novos a cada ano
Principais
Indução de Árvores de Decisão Indução de conjuntos de regras Redes Neurais
Máquinas de Vetores de Suporte K-NN
Regressão Logística Redes Bayesianas
Algoritmos de classificação
Podem ser agrupados por diferentes critérios
Baseados em distâncias K-NN Baseados em otimização RNs Baseados em probabilidade NB
Baseados em procura (lógicos)
Indução de ADs
André C P L F de Carvalho 70
Algoritmos de classificação
Podem ser agrupados por diferentes critérios
Baseados em distâncias K-NN Baseados em otimização RNs Baseados em probabilidade NB
Baseados em procura (lógicos)
Indução de ADs
André C P L F de Carvalho 71
Geométricos
© André de Carvalho - ICMC/USP 72
Conclusão
Aprendizado de Máquina
Algoritmos
Viés indutivo Tipos de aprendizado
Tarefas de aprendizado
Descritivas PreditivasAndre Ponce de Leon de Carvalho 73