Genes de Predi¸ c˜ ao Intrinsicamente Multivariada

da expressão do gene alvo a partir dos genes preditores. Por outro lado, um CoD igual a 1 (um) significa que o conhecimento da expressão dos genes preditores permite obter completamente a expressão do gene alvo. Dessa forma, em termos de coeficiente de determina¸cão, o nosso problema de sele¸cão de caracter´ısticas passa a ser o de encontrar subconjuntos de variáveis aleatórias de tamanho k com CoDs altos.

4.8 Genes de Predi¸ c˜ ao Intrinsicamente Multivariada

Uma propriedade importante do CoD é que dado um gene alvo fixo, o CoD aumenta na medida em que novos genes preditores são adicionados. Sendo assim, para um gene alvo Y temos que θ{X1,...,Xk−1}(Y) ≤ θ{X1,...,X_k}(Y). Embora ambos os CoDs possam ter o mesmo valor é muito comum obter uma desigualdade restrita. Dessa maneira, obtemos incrementos de CoD da forma θ{X₁}(Y) < θ{X₁,X2}(Y) < θ{X₁,X2,X3}(Y). Se os genes preditores fornecem informa¸cão suficiente, o CoD atinge valores altos após um certo número de genes adicionados.

Considere a seguinte configura¸cão de CoDs apresentada na Tabela 4.2. De acordo com a tabela o CoD é alto quando os três genes são usados simultaneamente como preditores, mas se cada gene for usado individualmente como preditor os seus CoDs são muito baixos, ou seja, nenhuma rela¸cão preditiva é obtida utilizando-se apenas um gene de cada vez.

Para entender melhor a situa¸cão exposta, um gene alvo que satisfaz esta rela¸cão poderia ter um papel importante e vital dentro da célula, pois necessita de todos os três genes para ser controlado. Assim, genes alvos que satisfazem esta propriedade devem ser genes envolvidos em processos biológicos na qual somente podem ser ativados ou desativados por um determinado subconjunto de genes de forma simultânea. Genes alvos que se com-portam desta maneira são chamados degenes de predi¸cão intrinsicamente multivariada, ou simplesmentegenes IMP (do inglês Intrinsically Multivariately Predictive genes).

Z θ_Z(Y) {X1} ≈0 {X₂} ≈0 {X₃} ≈0 {X₁, X₂, X₃} ≈1

Tabela 4.2: Configura¸c˜ao de CoDs.

Quando temos a configura¸cão da Tabela 4.2 dizemos que Y é um gene IMP de grau 1. Este conceito pode ser estendido para subconjuntos maiores de genes preditores. Por exemplo, considere a segunda configura¸cão de CoDs na Tabela 4.3 abaixo:

Neste caso, os genes preditores não ajudam a predizer o estado do gene alvoY quando tomados de dois em dois. Porém, quando tomamos os três genes predidores simultanea-mente temos uma forte rela¸cão preditiva. Sendo assim,Y é um gene IMP de grau 2.

4.8. Genes de Predi¸c˜ao Intrinsicamente Multivariada ime-usp Z θ_Z(Y)

{X₁, X₂} ≈0 {X₁, X₃} ≈0 {X2, X3} ≈0 {X₁, X₂, X₃} ≈1

Tabela 4.3: Segunda configura¸c˜ao de CoDs.

Para entender melhor o interesse em genes que se comportam como um gene IMP vamos considerar um exemplo simplificado de transcri¸cão, onde a informa¸cão genética é transferida do DNA para o RNA. Na Figura 4.6 temos três genes: A, B e C. Para que o gene C seja transcrito ele necessita dos fatores de transcri¸cão A e B. Se apenas o fator de transcri¸cão A estiver presente o gene C não é transcrito. O mesmo ocorre se tivermos apenas o fator de transcri¸cão B presente. Sendo assim, o gene C necessita de ambos os genes, A e B, e seus respectivos fatores de transcri¸cão. Neste exemplo o gene C está fazendo o papel de gene IMP, onde os genes A e B atuam como seus preditores.

Figura 4.6: Transcri¸c˜ao do gene C.

Finalizando, vimos que a intera¸cão entre os genes de um sistema biológico pode ser modelada por uma rede Booleana com perturba¸cão e cadeias de Markov, onde podemos obter a distribui¸cão estacionária dos estados da rede. Assumindo que tal distribui¸cão é conhecida, podemos utilizar o erro de Bayes para calcular os coeficientes de determina¸cão.

A partir dos CoDs, podemos encontrar então os genes IMP. Uma questão que não foi focada em nossa pesquisa mas que pode ser estudada futuramente é a de encontrar car-acter´ısticas em redes Booleanas com pertuba¸cão que seriam necessárias e suficienes para a existência de genes IMP.

Cap´ıtulo 5

Modelando Dados de Express˜ ao

Gˆ enica usando Redes Booleanas com Perturba¸ c˜ ao

Vimos no cap´ıtulo anterior que se um sistema biológico é modelado usando redes Booleanas com pertuba¸cão e cadeias de Markov, então podemos obter a distribui¸cão estacionária dos estados da rede. Esta distribui¸cão corresponde à distribui¸cão de proba-bilidade conjunta dos genes que compõem a rede. Neste sentido, podemos dizer que as variáveis da rede Booleana com pertuba¸cão após iterar por um longo per´ıodo de tempo podem ser consideradas como variáveis aleatórias com distribui¸cão de probabilidade con-junta dada pela distribui¸cão de probabilidade estacionária da correspondente cadeia de Markov. Vimos que conhecendo tal distribui¸cão, podemos calcular o erro de Bayes e con-seqüentemente obter os CoDs. Posteriormente, a partir dos CoDs, podemos encontrar os genes IMP.

Neste cap´ıtulo, iremos considerar um sistema biológico modelado por uma rede Booleana com pertuba¸cão em que as fun¸cões Booleanas e a probabilidade de pertuba¸cão não são conhecidas. Conseqüentemente, a distribui¸cão de probabilidade conjunta não é conhecida (como a maioria dos problemas em Reconhecimento de Padrões). Assim, os CoDs devem ser estimados a partir de observa¸cões (amostras) do sistema biológico. No nosso caso, es-tas observa¸cões são dados de expressão gênica provenientes de microarrays. Desta forma, para calcular os CoDs e realizar a busca por genes IMP, devemos entender como fazer a análise destes dados. Com este intuito, vamos modelar os dados de expressão gênica provenientes de microarrays usando o modelo de redes Booleanas com perturba¸cão.

No documento Coeficientes de Determina¸cão, Predi¸cão Intrinsicamente Multivariada e Genética (páginas 45-48)