Extracção de Conhecimento de Dados obtidos
por Simulação da Desnaturação Proteica
Dissertação de Mestrado em Análise de Dados e Sistemas de Apoio
à Decisão
Faculdade de Economia
por Elisabeth Silva Fernandes
Orientador: Professor Alípio Jorge
Motivação
Objectivo
Estudar o processo de desnaturação da proteína
TTR.
O monómero de TTR tem 127 aminoácidos.
Duas variantes de TTR: WT-TTR wild type e
L55P-TTR variante mutada.
Dados
10 simulações da desnaturação da TTR.
Cada corrida com 127 séries temporais.
Medida em estudo: distância do C
ade cada
aminoácido ao centro de massa da proteína.
Cada série temporal tem 10001 valores (um por
cada pico segundo).
Figura 1- (A) TTR; (B)
Monomero de TTR
Processo de Extracção de Conhecimento
Dados
10 Simulações Dim: 10001 x 127 Análise de Clusters Partição consenso Eventos Regras de AssociaçãoExtracção
de
Conhecimento
Clustering para cada variante de TTR (Partição I e II) Aminoácidos Representativos Análise Exploratória
126 series temporais, 10 simulações de desnaturação da TTR
14 Clusters dos 127 aminoácidos
Análise de Clusters - Partição Consenso
Optimização dos Índices G2 e G3 de Milligan e Cooper
Clustering hierárquico para cada corrida (Método de Ward e
Distância Euclideana): 10 Partições dos 126 aminoácidos;
Clustering hierárquico sob o quadro das classificações
(Método da Ligação Média e Medida de dissemelhança
definida): Partição Consenso
Processo de Extracção de Conhecimento
Dados
10 Simulações Dim: 10001 x 127 Análise de Clusters Partição consenso Eventos Regras de Associação Extracção de ConhecimentoClustering para cada variante de TTR (Partição I e II) Aminoácidos Representativos Análise Exploratória
Extracção
de
Conhecimento
15 elementos representativos
Aminoácidos Representativos
Elemento representativo de um cluster:
- Aminoácido mais próximo do centróide da classe.
Nas 10 Partições:
O aminoácido representativo é o mais votado;
Caso de empate: deixa-se para escolher no final e dos mais
Processo de Extracção de Conhecimento
Dados
10 Simulações Dim: 10001 x 127 Análise de Clusters Partição consenso Eventos Regras de Associação Extracção de ConhecimentoClustering para cada variante de TTR (Partição I e II) Aminoácidos Representativos Análise Exploratória
Extracção
de
Conhecimento
LEU_17
CM
GLU_42
Identificação de Eventos
1.
Comparação de Aminoácidos dois a dois
Evento Nº 1 - “troca de posição entre dois aminoácidos
”
LEU_17
CM
GLU_42
Identificação de Eventos
Evento Nº2 - “duas trocas entre dois aminoácidos”
Identificação de Eventos
“Procura de alterações significativas por aminoácido”
66 aminoácidos com
alterações bruscas de
comportamento
Verifica-se a ocorrência de um
evento quando, para uma
janela de 200ps, a linha que
passa pelo ponto de máximo e
pelo mínimo tem declive
Processo de Extracção de Conhecimento
Dados 10 Simulações Dim: 10001 x 127 Análise de Clusters Partição consenso Eventos Regras de Associação Extracção de ConhecimentoClustering para cada variante de TTR (Partição I e II) Aminoácidos Representativos Análise Exploratória