Correla¸cão linear de Pearson, correla¸cão robusta e informa¸cão m´ utua

7.2 Redes de relevˆancia

7.2.1 Correla¸cão linear de Pearson, correla¸cão robusta e informa¸cão m´ utua

A métrica mais utilizada para a estima¸cão da intera¸cão entre pares de genes é a correla¸cão linear de Pearson. Dadas duas variáveis aleatórias X e Y , a correla¸cão linear de Pearson entre essas duas variáveis é definida como

ρ(X, Y ) = IE(XY ) − IE(X)IE(Y )

DP(X)DP(Y ) , (7.1) onde IE e DP denotam a esperan¸ca e o desvio padrão das variáveis. Dadas x e y duas amostras aleatórias das variáveis X e Y , com tamanho n, a correla¸cão linear de Pearson pode ser estimada

Cap´ıtulo 7. Engenharia reversa

Figura 7.2: Redes de relevância, método proposto por Butte et al. (2000). Neste grafo estão representados os genes associados com a via do Braf usando um conjunto de observa¸cões de melanomas primários. As arestas representam intera¸cões estimadas pelo valor de correla¸cão robusta, veja a Se¸cão 7.2.1. No grafo estão representadas apenas as correla¸cões diferentes de zero com n´ıvel descritivo menor que 0,01. Note que as correla¸cões negativas estão representadas em verde enquanto as correla¸cões positivas estão representadas em vermelho. por r(x, y) = Pn i=1(xi− x)(yi− y) p (xi− x)2 p (yi− y)2 , (7.2)

onde x e y são as médias amostrais de x e y. É importante enfatizar que a correla¸cão linear de Pearson mede o grau de associa¸cão linear entre duas variáveis, que varia no intervalo [−1, 1], onde −1 representa forte associa¸cão negativa, 1 representa forte associa¸cão positiva e zero representa ausência total de associa¸cão linear.

Denotando r(x, y) simplificadamente por r, como j´a mencionamos anteriormente, Butte et al utilizaram os valores de r2 _{e para representar graficamente as informa¸c˜oes referentes a}

associa¸c˜oes positivas ou negativas, eles utilizaram valores dados por r2∗

= r |r|r

2_, _(7.3)

onde |r| denota a fun¸cão módulo, que retorna o valor absoluto do seu argumento. Com esta nova estat´ıstica é poss´ıvel utilizar o valor de r2 _{mantendo a informa¸cão do sinal do valor de}

correla¸cão calculado, ou seja, a informa¸cão sobre existência de intera¸cão positiva ou negativa entre as variáveis estudadas.

Um problema bastante comum em estat´ıstica com a utiliza¸cão do valor de correla¸cão linear dado pela equa¸cão (7.2) é a influência de valores extremos (outliers); muitas vezes encontramos valores de correla¸cão extremamente altos, ou extremamente baixos, que se devem simplesmente a presen¸ca de um ponto muito discrepante em rela¸cão aos demais. Para contornar este tipo de problema, definimos uma medida robusta onde calcula-se a correla¸cão entre x e y, ambos com n elementos, através de um processo iterativo onde é removida uma observa¸cão por vez e é calculado o valor de correla¸cão linear de Pearson entre as n − 1 observa¸cões restantes. No final desta etapa, temos um vetor r com n valores de correla¸cões diferentes. Se o conjunto de dados não apresenta valores extremos todos os n valores calculados estão muito próximos e podemos tomar qualquer um deles como estimativa sem maiores problemas. Entretanto, quando o conjunto de dados apresenta algum valor extremo temos n − 1 valores de correla¸cão “contaminados” e apenas um valor que não sofre a influência deste ponto. Assim, estabelecemos a seguinte regra de decisão para definir um valor robusto para r denotado por r′

r′(x, y) =   

min(r), se _{max(r) − r < r − min(r),}

max(r), se _{max(r) − r > r − min(r),} (7.4) onde min(r), max(r) e r são os valores m´ınimo, máximo e médio dos valores de correla¸cão calculados. Ou seja, decide-se pelo valor m´ınimo ou máximo, de acordo com o que esteja mais distante da média; também é poss´ıvel usar o valor mediano aqui. Note que esta medida de correla¸cão robusta é similar à correla¸cão jackknife (Heyer et al., 1999), onde o mesmo procedi- mento iterativo é usado, mas com o critério de decisão dado por r′_{(x, y) = min(r). Entretanto,}

a correla¸cão robusta dada pela equa¸cão (7.4) consegue lidar com situa¸cões onde temos uma forte dependência linear viesada pela presen¸ca de um ponto discrepante, o que não é verdade para a correla¸cão jackknife.

Outra op¸cão de métrica interessante para o modelo de redes de relevância são os valores de informa¸cão mútua, o que também já foi proposto por Butte & Kohane (2000). Dada uma variável aleatória bi-variada, Z = (X, Y ), com fun¸cão de densidade dada por µ(x, y), define-se a informa¸cão mútua entre X e Y como

IM(X, Y ) = Z Z

µ(x, y) log µ(x, y)

Cap´ıtulo 7. Engenharia reversa onde µx(x) e µy(y) são as distribui¸cões marginais de X e Y , respectivamente. Também é

poss´ıvel mostrar que

IM(X, Y ) = H(X) + H(Y ) − H(X, Y ),

onde a fun¸cão H(X) denota a entropia da variável aleatória X, que é dada por H(X) = −R µx(x) log µx(x)dx. Logo, dadas n observa¸cões, zi = (xi, yi), i = 1, · · · , n da variável Z,

implementamos o algoritmo proposto por Kraskov et al. (2004) para estimar IM(X, Y ). Mais recentemente, Barrera et al. (2006) também utilizaram informa¸cão mútua para estimar redes de intera¸cão gênica através de um processo conhecido como redes genéticas probabil´ısticas. Avalia¸cão da significância

Como já foi proposto nos trabalhos de Butte et al. (2000) e Butte & Kohane (2000), para a avalia¸cão da significância dos valores de intera¸cão obtidos, independentemente da utiliza¸cão da correla¸cão linear de Pearson, correla¸cão robusta ou dos valores de informa¸cão mútua, é poss´ıvel utilizar estratégias de permuta¸cão dos dados.

Nos métodos de permuta¸cão, os valores observados para genes de interesse são permutados independentemente um número grande, digamos B, de vezes e os valores de intera¸cão são recalculados em cada repeti¸cão do processo. Assim, podemos contar o número de vezes, digamos b, em que se obtém valores maiores que o valor observado nos dados originais e definimos o n´ıvel descritivo do teste como b/B. Se o interesse for o teste bicaudal, devemos tomar os valores absolutos das estat´ısticas, se o teste for feito à esquerda ou direita devemos contar o número de de vezes em que a estat´ıstica permutada é menor ou maior que o valor originalmente observado. Esta estratégia é especialmente interessante por não fazer nenhum tipo de suposi¸cão sobre a distribui¸cão dos dados.

No documento Métodos estatísticos para a análise de dados de cDNA microarray em um ambiente computacional... (páginas 126-129)