7.2 Redes de relevˆancia
7.2.1 Correla¸c˜ao linear de Pearson, correla¸c˜ao robusta e informa¸c˜ao m´ utua
A m´etrica mais utilizada para a estima¸c˜ao da intera¸c˜ao entre pares de genes ´e a correla¸c˜ao linear de Pearson. Dadas duas vari´aveis aleat´orias X e Y , a correla¸c˜ao linear de Pearson entre essas duas vari´aveis ´e definida como
ρ(X, Y ) = IE(XY ) − IE(X)IE(Y )
DP(X)DP(Y ) , (7.1) onde IE e DP denotam a esperan¸ca e o desvio padr˜ao das vari´aveis. Dadas x e y duas amostras aleat´orias das vari´aveis X e Y , com tamanho n, a correla¸c˜ao linear de Pearson pode ser estimada
Cap´ıtulo 7. Engenharia reversa
Figura 7.2: Redes de relevˆancia, m´etodo proposto por Butte et al. (2000). Neste grafo est˜ao representados os genes associados com a via do Braf usando um conjunto de observa¸c˜oes de melanomas prim´arios. As arestas representam intera¸c˜oes estimadas pelo valor de correla¸c˜ao robusta, veja a Se¸c˜ao 7.2.1. No grafo est˜ao representadas apenas as correla¸c˜oes diferentes de zero com n´ıvel descritivo menor que 0,01. Note que as correla¸c˜oes negativas est˜ao representadas em verde enquanto as correla¸c˜oes positivas est˜ao representadas em vermelho. por r(x, y) = Pn i=1(xi− x)(yi− y) p (xi− x)2 p (yi− y)2 , (7.2)
onde x e y s˜ao as m´edias amostrais de x e y. ´E importante enfatizar que a correla¸c˜ao linear de Pearson mede o grau de associa¸c˜ao linear entre duas vari´aveis, que varia no intervalo [−1, 1], onde −1 representa forte associa¸c˜ao negativa, 1 representa forte associa¸c˜ao positiva e zero representa ausˆencia total de associa¸c˜ao linear.
Denotando r(x, y) simplificadamente por r, como j´a mencionamos anteriormente, Butte et al utilizaram os valores de r2 e para representar graficamente as informa¸c˜oes referentes a
associa¸c˜oes positivas ou negativas, eles utilizaram valores dados por r2∗
= r |r|r
2, (7.3)
onde |r| denota a fun¸c˜ao m´odulo, que retorna o valor absoluto do seu argumento. Com esta nova estat´ıstica ´e poss´ıvel utilizar o valor de r2 mantendo a informa¸c˜ao do sinal do valor de
correla¸c˜ao calculado, ou seja, a informa¸c˜ao sobre existˆencia de intera¸c˜ao positiva ou negativa entre as vari´aveis estudadas.
Um problema bastante comum em estat´ıstica com a utiliza¸c˜ao do valor de correla¸c˜ao linear dado pela equa¸c˜ao (7.2) ´e a influˆencia de valores extremos (outliers); muitas vezes encontramos valores de correla¸c˜ao extremamente altos, ou extremamente baixos, que se devem simplesmente a presen¸ca de um ponto muito discrepante em rela¸c˜ao aos demais. Para contornar este tipo de problema, definimos uma medida robusta onde calcula-se a correla¸c˜ao entre x e y, ambos com n elementos, atrav´es de um processo iterativo onde ´e removida uma observa¸c˜ao por vez e ´e calculado o valor de correla¸c˜ao linear de Pearson entre as n − 1 observa¸c˜oes restantes. No final desta etapa, temos um vetor r com n valores de correla¸c˜oes diferentes. Se o conjunto de dados n˜ao apresenta valores extremos todos os n valores calculados est˜ao muito pr´oximos e podemos tomar qualquer um deles como estimativa sem maiores problemas. Entretanto, quando o conjunto de dados apresenta algum valor extremo temos n − 1 valores de correla¸c˜ao “contaminados” e apenas um valor que n˜ao sofre a influˆencia deste ponto. Assim, estabelecemos a seguinte regra de decis˜ao para definir um valor robusto para r denotado por r′
r′(x, y) =
min(r), se max(r) − r < r − min(r),
max(r), se max(r) − r > r − min(r), (7.4) onde min(r), max(r) e r s˜ao os valores m´ınimo, m´aximo e m´edio dos valores de correla¸c˜ao calculados. Ou seja, decide-se pelo valor m´ınimo ou m´aximo, de acordo com o que esteja mais distante da m´edia; tamb´em ´e poss´ıvel usar o valor mediano aqui. Note que esta medida de correla¸c˜ao robusta ´e similar `a correla¸c˜ao jackknife (Heyer et al., 1999), onde o mesmo procedi- mento iterativo ´e usado, mas com o crit´erio de decis˜ao dado por r′(x, y) = min(r). Entretanto,
a correla¸c˜ao robusta dada pela equa¸c˜ao (7.4) consegue lidar com situa¸c˜oes onde temos uma forte dependˆencia linear viesada pela presen¸ca de um ponto discrepante, o que n˜ao ´e verdade para a correla¸c˜ao jackknife.
Outra op¸c˜ao de m´etrica interessante para o modelo de redes de relevˆancia s˜ao os valores de informa¸c˜ao m´utua, o que tamb´em j´a foi proposto por Butte & Kohane (2000). Dada uma vari´avel aleat´oria bi-variada, Z = (X, Y ), com fun¸c˜ao de densidade dada por µ(x, y), define-se a informa¸c˜ao m´utua entre X e Y como
IM(X, Y ) = Z Z
µ(x, y) log µ(x, y)
Cap´ıtulo 7. Engenharia reversa onde µx(x) e µy(y) s˜ao as distribui¸c˜oes marginais de X e Y , respectivamente. Tamb´em ´e
poss´ıvel mostrar que
IM(X, Y ) = H(X) + H(Y ) − H(X, Y ),
onde a fun¸c˜ao H(X) denota a entropia da vari´avel aleat´oria X, que ´e dada por H(X) = −R µx(x) log µx(x)dx. Logo, dadas n observa¸c˜oes, zi = (xi, yi), i = 1, · · · , n da vari´avel Z,
implementamos o algoritmo proposto por Kraskov et al. (2004) para estimar IM(X, Y ). Mais recentemente, Barrera et al. (2006) tamb´em utilizaram informa¸c˜ao m´utua para estimar redes de intera¸c˜ao gˆenica atrav´es de um processo conhecido como redes gen´eticas probabil´ısticas. Avalia¸c˜ao da significˆancia
Como j´a foi proposto nos trabalhos de Butte et al. (2000) e Butte & Kohane (2000), para a avalia¸c˜ao da significˆancia dos valores de intera¸c˜ao obtidos, independentemente da utiliza¸c˜ao da correla¸c˜ao linear de Pearson, correla¸c˜ao robusta ou dos valores de informa¸c˜ao m´utua, ´e poss´ıvel utilizar estrat´egias de permuta¸c˜ao dos dados.
Nos m´etodos de permuta¸c˜ao, os valores observados para genes de interesse s˜ao permutados independentemente um n´umero grande, digamos B, de vezes e os valores de intera¸c˜ao s˜ao recalculados em cada repeti¸c˜ao do processo. Assim, podemos contar o n´umero de vezes, digamos b, em que se obt´em valores maiores que o valor observado nos dados originais e definimos o n´ıvel descritivo do teste como b/B. Se o interesse for o teste bicaudal, devemos tomar os valores absolutos das estat´ısticas, se o teste for feito `a esquerda ou direita devemos contar o n´umero de de vezes em que a estat´ıstica permutada ´e menor ou maior que o valor originalmente observado. Esta estrat´egia ´e especialmente interessante por n˜ao fazer nenhum tipo de suposi¸c˜ao sobre a distribui¸c˜ao dos dados.