CONSTRUÇÃO DE MAPAS DE LIGAÇÃO POR MEIO DE SIMULAÇÃO DE MONTE CARLO VIA CADEIAS DE MARKOV

(1)

CONSTRUÇÃO DE MAPAS DE LIGAÇÃO POR MEIO DE SIMULAÇÃO DE MONTE CARLO VIA CADEIAS DE MARKOV

Moysés NASCIMENTO¹ Cosme Damião CRUZ² Ana Carolina Campana NASCIMENTO¹ Adésio FERREIRA³ Luiz Alexandre PETERNELLI¹ Fabyano Fonseca e SILVA¹ Paulo Roberto CECON¹ RESUMO: Este trabalho teve por objetivo apresentar e avaliar a eficiência da utilização de

métodos de simulação de Monte Carlo via Cadeias de Markov no mapeamento genético (MCMC). Utilizou-se o algoritmo de Metropolis-Hastings para obter estimativas de frequência de recombinação entre dois marcadores e o algoritmo simulated annealing para ordenar marcadores dentro dos grupos de ligação. Para tanto, simulou-se uma população F2, de natureza codominante, constituída de 200 indivíduos. Estabeleceu-se um genoma com quatro grupos de ligação, com 100 cM de tamanho cada. Os grupos de ligação possuem 51, 21, 11 e 6 marcas, respectivamente. O algoritmo de Metropolis-Hastings produziu resultados semelhantes aos obtidos analiticamente. Já o algoritmo do simulated annealing foi eficiente na ordenação dos marcadores, obtendo resultados semelhantes ou melhores aos do método delineação rápida em cadeia. Desta forma, a utilização de métodos MCMC é uma alternativa viável e de simples implementação em estudos de mapeamento genético.

PALAVRAS-CHAVE: MCMC; mapeamento genético; marcadores molecular.

1 Introdução

O mapeamento genético facilita o trabalho de melhoramento, uma vez que uma ou mais marcas do genótipo podem estar associadas a um ou mais genes controladores de características qualitativas e quantitativas (Rosado et al., 2010). Desse modo, tendo-se o genótipo mapeado, o trabalho de melhoramento pode ser otimizado, tanto na eficiência do programa, quanto na velocidade de obtenção de ganhos, pois é possível a realização de seleção com base nos marcadores (Bhering et al., 2008).

Após a primeira etapa do mapeamento, que consiste em selecionar marcadores moleculares que apresentam polimorfismo, é necessário obter estimativas da frequência

1 Universidade Federal de Viçosa – UFV, Departamento de Estatística, CEP: 36570-000, Viçosa, MG, Brasil.

E-mail: moysesnascim@ufv.br / ana.campana@ufv.br / peternelli@ufv.br / fabyanofonseca@ufv.br / cecon@ufv.br

2 Universidade Federal de Viçosa – UFV, Departamento de Biologia Geral, CEP: 36570-000, Viçosa, MG, Brasil. E-mail: cdcruz@ufv.br

3 Universidade Federal do Espírito Santo, Centro Agropecuário –CCAUFES, CEP 29500-000, Alegre, ES, Brasil. E-mail: adesioferreira@gmail.com

(2)

de recombinação entre pares de locos para que seja possível ordenar os marcadores dentro de cada grupo de ligação.

Em geral, a estimação da frequência de recombinação entre pares de locos é realizada por meio do método da máxima verossimilhança. Este método é, sem dúvida, o mais popular dentre os métodos de estimação. Em muitas situações a solução da equação de verossimilhança pode ser obtida analiticamente. Entretanto, em situações mais complexas a solução analítica é impraticável, devendo o resultado ser obtido a partir de aproximações numéricas (Bolfarine e Sandoval, 2001).

Para casos em que a solução não pode ser encontrada analiticamente, surgem como opções, o método gráfico (Schustere e Cruz, 2008), o qual atribui diferentes valores para o parâmetro, referente à frequência de recombinação entre pares de marcadores, dentro do intervalo 0 a 0,5, na função de verossimilhança, encontrando assim, o ponto de máximo da função. Embora útil, existem situações em que o método gráfico deixa de ser interessante visto à dificuldade da análise visual em planos ou superfícies. Nestes casos, métodos iterativos como o de Newton-Raphson e Algoritmo EM (Esperança e Maximização) surgem como alternativas na estimação da frequência de recombinação.

Entretanto, uma má escolha do valor inicial pode fazer com que o algoritmo convirja para um valor que não seja o máximo da função de verossimilhança. Uma alternativa para contornar esses problemas e obter estimativas para a frequência de recombinação é o uso de métodos de amostragem baseados em cadeias de Markov, os métodos MCMC (Markov Chain Monte Carlo), mais especificamente o algoritmo de Metropolis-Hastings (1970). A utilização deste método se faz interessante visto que, obedecendo a critérios de convergência, independente do estado inicial da cadeia, ou seja, do valor inicial, o algoritmo converge para a distribuição de interesse.

Uma vez estimadas as frações de recombinação entre cada par de marcadores, e já discriminados os grupos de ligação, deve-se determinar a melhor ordem para os marcadores dentro de cada grupo (Carneiro e Viera, 2002). Quando se tem apenas dois marcadores, apenas uma ordem é possível. O problema surge quando o interesse é estabelecer a melhor ordem a partir de um grande número de marcas, pois se tem, para n marcadores, n!/2 possíveis ordens (Schuster e Cruz, 2008). Nota-se então que, para grande número de locos, este não é um problema trivial de ser resolvido.

Para solucionar o problema de ordenação, ou seja, obter uma solução numérica, vários métodos são citados na literatura: delineação rápida em cadeia (Doerge, 1996);

seriação (Buetow e Chakravarti, 1987a,b); simulated annealing (Kirkpatrick et al., 1983);

ramos e conexões (Thompson, 1987). O método de simulação estocástica, simulated annealing é na verdade um conhecido método MCMC (especificamente o Algoritmo de Metropolis-Hastings), modificado de forma a se tornar um algoritmo de otimização.

Diante do exposto, o objetivo deste trabalho apresentar e foi avaliar a eficiência da utilização de métodos de simulação de Monte Carlo via Cadeias de Markov (MCMC) na estimação da frequência de recombinação entre dois marcadores e na ordenação dos mesmos no processo de mapeamento genético. Utilizou-se o algoritmo de Metropolis- Hastings para obter estimativas de frequência de recombinação entre dois marcadores e o algoritmo do simulated annealing para ordenar marcadores dentro dos grupos de ligação.

Além disso, os resultados obtidos foram comparados com os obtidos pelos métodos de máxima verossimilhança e delineação rápida em cadeia, para a estimação da frequência de recombinação e ordenação de marcadores, respectivamente.

(3)

2 Material e métodos

Para realização deste estudo, simulou-se uma população F2 de tamanho 200 com marcadores codominantes. Para esta população, foi gerado um genoma com quatro grupos de ligação, com 100 centimorgans (cM) de tamanho cada. Os grupos de ligação possuem 51, 21, 11 e 6 marcas, com uma distância de 2, 5, 10 e 20 cM entre marcas adjacentes, ocasionando diferentes graus de saturação. A escolha de uma população de tamanho 200 se deve ao trabalho de Ferreira et al. (2006) em que os autores afirmam que uma população composta por esta quantidade de indivíduos é suficiente para construção de mapa de ligação precisos.

Deste modo, tem-se: i) Primeiro grupo de ligação: marcador 1 (m1), marcador 2 (m2), ..., marcador 51 (m51), com intervalos entre marcas adjacentes de 2 cM;

ii) Segundo grupo de ligação: marcador 52 (m52), marcador 53 (m53),..., marcador 72 (m72), com intervalos entre marcas adjacentes de 5 cM; iii) Terceiro grupo de ligação:

marcador 73 (m73), marcador 74 (m74),..., marcador 83 (m83), com intervalos entre marcas adjacentes de 10 cM; iv) Quarto grupo de ligação: marcador 84 (m84), marcador 85 (m85),..., marcador 89 (m89), com intervalos entre marcas adjacentes de 20 cM.

Utilizou-se o módulo de “Simulação de genoma complexo” do aplicativo computacional GQMOL (Cruz, 2007) para obtenção destas populações.

2.1 Método da máxima verossimilhança para estimação da frequência de recombinação

Considerando informações de dois loci gênicos (M1/m1 e M2/m2) obtidas numa população F2 codominante derivada de um F1 duplo-heterozigoto, são observadas nove classes genotípicas (Tabela 1).

Tabela 1 - Valores observados e esperados da segregação de dois locos codominantes Genótipo Número Observado Frequência Esperada genes ligados

M1M1M2M2

n

1 p1=14(1−r)²

M1M1M2m2

n

2 ^p2⁼¹₂^r⁽¹⁻^r⁾

M1M1m2m2

n

3 p3 = 14r²

M1m1M2M2

n

4 ^p4⁼¹₂^r⁽¹⁻^r⁾

M1m1M2m2

n

5 p5 =12(1−r)²+12r²

M1m1m2m2

n

6 ^p6 ⁼¹₂^r⁽¹⁻^r⁾

m1m1M2M2

n

7 p7 =14r²

m1m1M2m2

n

8 ^p8⁼¹₂^r⁽¹⁻^r⁾

m1m1m2m2

n

9 p9 =14(1−r)²

(4)

Observando-se n indivíduos dentre os quais n_i pertencem à classe genotípica i, em que i∈

{

1,2,…,9

}

então, o vetor aleatório N=( , , , )n n₁ ₂ … n₉ tem distribuição multinomial com parâmetros n p p, ,₁ ₂, ,… p₉ e;portanto,

9

1 2

1 2 9

( | ) !

! ! !

n n n

N r n p p p

n n n

π

= …

…

, em que p₁= p₉ =1 (1 )4 −r ²;

2 4 6 8 12 (1 )

p =p = p = p = r −r ;p₃= p₇ =14r² e p₅ = 12(1−r)²+12r². Apesar de haver nove classes, verifica-se que algumas delas possuem a mesma frequência esperada, ficando assim reduzidas a quatro (Tabela 1).

A função de verossimilhança correspondente à amostra aleatória observada é dada por:

1 9 2 4 6 8 5 3 7

2 2 2 2

1 1 1 1 1

( ; ) 4(1 ) 2 (1 ) 2(1 ) 2 4 ;

n n n n n n n n n

L r N =λ^ −r ^ ⁺ ^ r −r ^ ⁺ ⁺ ⁺ ^ −r + r ^{ }  r ^ ⁺ (1)

em que:

1 2 9

!

! ! !

n

n n n

λ=

… .

Considerando A=n₁+n₉,B=n₂+n₄+n₆+n₈, C=n₅ e D=n₃+n₇, a função suporte, ou seja, o logaritmo natural da função de verossimilhança de r pode ser definido como:

ln ( ; ) ln( ) 2 ln(1L r N = λ + A −r)+Bln( (1r −r)+Cln(1 2− r+2 ) 2 ln( )r2 + D r . (2) Obtém-se o estimador de máxima verossimilhança igualando a função escore, definida como a derivada da função suporte (2), à zero. Isto é,

2

ˆ ˆ

( ; ) 2 (1 2 ) 2 (1 2 ) 2

ˆ ˆ ˆ ˆ ˆ ˆ 0.

1 (1 ) 1 2 2

l r N A B r C r D

r r r r r r r

∂ − − − −

= + + + =

∂ − − − + (3)

Fazendo as simplificações necessárias em (3), obtém-se a equação polinomial, cujas raízes devem ser obtidas.

0 4

8 6 6 4 6

2 4 2

2D+B−rˆ( A+ B+ C− D)+rˆ²( A+ B+ C+ D)− rˆ³(A+B+C+D)= .

2.1.1 Solução analítica

As raízes deste polinômio podem ser encontradas analiticamente através do dispositivo prático de Briot-Ruffini. Este método baseia-se na lei da divisão, aplicada a um polinômio quando dividido por um binômio da forma (x−a). Desta forma, sua utilização está condicionada ao conhecimento de ao menos uma raiz do polinômio. O

(5)

conhecimento de possíveis raízes pode ser obtido utilizando o teorema de raízes racionais⁴. Entretanto, para grandes valores de a₀=2De a_n =(A+B+C+D) existe uma infinidade de possíveis raízes, tornando a resolução analítica do problema uma tarefa árdua.

Assim, nestes casos o resultado deve ser obtido a partir de métodos gráficos, aproximações numéricas e/ou métodos MCMC (Bolfarine e Sandoval, 2001).

2.1.2 Solução por meio do algoritmo de Metropolis-Hastings (MCMC)

Este é sem dúvida o mais importante dos métodos MCMC, pois todos os outros são casos especiais dele. O algoritmo foi inicialmente proposto por Metropolis (1953) e generalizado por Hastings (1970). De maneira sucinta, a ideia do algoritmo é simular uma cadeia de Markov (X_n)_n_≥₀ em seu espaço de estados (Λ) com distribuição estacionária π. Isto é, valores de Λ após um tempo suficientemente longo de simulação são amostrados de uma distribuição aproximadamente igual a π .

Neste algoritmo um valor é gerado a partir de uma distribuição auxiliar, q(r,r^*), e aceito com uma dada probabilidade

α

(r,r^* ). Esse mecanismo de correção garante a convergência da cadeia para a distribuição de equilíbrio, que, neste caso, é a distribuição de interesse π (Paulino et al., 2003). Suponha que no instante t a cadeia esteja no estado r e um valor r^* é gerado de uma distribuição proposta q(r,r^*). O novo valor r^*é aceito com probabilidade

(

^*

)

^* ^**

( | ) ( , )

, min ,1 .

( | ) ( , ) N r q r r

r r N r q r r

α π

π

 

=  

 

Uma característica importante é que só é necessário conhecer π parcialmente, isto é, a menos de uma constante. Desta forma, no caso da estimação da frequência de recombinação pode-se negligenciar o valor de

λ

.

O algoritmo de Metropolis-Hastings para o caso da estimação da frequência de recombinação pode ser descrito como:

Algoritmo 1

1. Escolhe-se uma função de transição auxiliar q(r,r^* ); 2. Escolha X₀∈Λ, ou seja, um chute inicial;

3. Para n≥0 e X_n=r simule X_n₊₁~q(r,r^*) e lance uma distribuição uniforme com a=0 e b=1, U(0,1). Supondo que X_n₊₁=r^*, faça

* *

1

se ( , ), caso contrário ;

n

r U r r

X r

α

+

 <

=



4. n←n+1 e retorne para o passo 3;

5. Interrompa o processo considerando um critério de convergência.

4Se o número racional p/q, com q e p, primos entre si, é uma raiz da equação polinomial com coeficientes inteiros a xn+an₋₁xⁿ⁻¹+ +a₂x²+a₁x+a₀=0

n … , então, p é divisor de a0e q é divisor de an.

(6)

Sabe-se da literatura especializada (Weir, 1996; Schuster e Cruz, 2008) que os valores de frequência de recombinação variam entre 0 e 0,5, assim, escolheu-se como distribuição proposta, isto é, q r r( , )^* uma distribuição uniforme com valores entre 0 e 0,5.

Por se tratar de uma distribuição de probabilidade simétrica, a probabilidade de aceitação se simplifica para ^* ( | )^*

( , ) min 1,

( | ) r r N r

N r α π

π

 

=  

 , ou seja,

* 2 * * 2 *2 *2

*

2 2 2

(1 ) 2 (1 ) 2(1 ) 2

( , ) min 1,

(1 ) 2 (1 ) 2(1 ) 2

A B C D

r r r r r r

r r r r r r r r

α

  −   −   − +    

 

=          

− − − +

       

 

 

.

Para avaliar a convergência do algoritmo de Metropolis-Hastings foi utilizado o critério de Raftery e Lewis (1992) mediante o pacote Bayesian Output Analysis (BOA) do R (R Development Core Team, 2010).

Além disso, com o objetivo de se observar a diminuição da influência do valor inicial da cadeia ao longo do processo de simulação, foram utilizados como valores iniciais da cadeia, para cada par de marcadores, os valores de r₀ =0,05e r₀ =0,50. 2.2 Métodos para ordenação dos marcadores

2.2.1 Delineação rápida em cadeia

O algoritmo da delineação rápida em cadeia (Doerge, 1996), consiste numa maneira simples para a ordenação de marcadores moleculares dentro dos grupos de ligação. Este algoritmo pode ser descrito da seguinte forma:

1. Verifica-se qual par de marcadores (m_i,m_j) possui a menor estimativa de frações de recombinação entre cada par de marcadores. Esses marcadores iniciarão a cadeia;

2. Verifica-se qual é o marcador não mapeado (m ) que apresenta a menor _k estimativa de frações de recombinação com um dos marcadores terminais.

Posiciona-se este marcador ao lado daquele com o qual apresentou a menor fração de recombinação;

3. Repete-se o procedimento até que todos os marcadores sejam adicionados à cadeia;

4. Em seguida, tentam-se inversões sucessivas em duplas e triplas marcas, a fim de minimizar a soma das recombinações adjacentes (SARF).

2.2.2 Simulated annealing

O simulated anneling é uma pequena modificação no conhecido algoritmo MCMC de Metropolis-Hastings (1970), que o transforma em um algoritmo de otimização conhecido como simulated annealing (Kirkpatrick et al., 1983). A ideia fundamental deste método é emprestada da física. Em física da matéria condensada, annealing é um processo

(7)

térmico utilizado para minimizar a energia livre de um sólido. Informalmente o processo pode ser descrito em duas etapas: (i) aumentar a temperatura do sólido até ele derreter; (ii) diminuir lentamente a temperatura até as partículas se organizarem no estado de mínima energia do sólido. Esse processo físico pode ser simulado no computador usando o algoritmo de Metropolis.

Suponha que o estado atual do sólido éx, e que a energia desse estado é H(x). Um estado candidato y, de energia H(y), é gerado aplicando uma pequena perturbação no estado x. A regra de decisão para aceitar o estado candidato utiliza a seguinte probabilidade _T( , ) min 1, exp H y^{( )} H x^{( )}

x y T

α = ^ ^− ⁻ ^^

 

 , em que T denota a temperatura. Se o resfriamento é realizado lentamente, o sólido atinge o equilíbrio térmico a cada temperatura. Do ponto de vista de simulação, isso significa gerar muitas transições a uma certa temperatura T (Robert e Casella, 2004).

Para o problema de ordenação de marcadores, faz-se a seguinte analogia: i) As soluções do problema de ordenação (otimização), ou seja, os elementos x_m∈Λ, representados por todas as possíveis permutações, são equivalentes aos estados físicos x;

ii) A função, ₁

1 1

( ) ,

i i

K m

i

f x D_σ _σ

+

−

=

∑

, que associa a cada ordem x_m∈Λa distância total percorrida (SARF - sum of adjacent recombination frequency) é equivalente à função energia do sólido, H(x); iii) Uma ordem candidata y_m de distância dada por

1 1 1

( ) ,

i i

K m

i

f y D_σ _σ

+

−

=

∑

é equivalente a um estado candidato

y

de energia H(y); iv) Um parâmetro de controle c>0 é equivalente à temperatura.

Seja

m0

x

uma ordem inicial, c₀ o parâmetro de controle inicial e L₀ o número inicial de iterações utilizadas para um mesmo valor de c₀. O simulated annealing pode ser descrito da seguinte forma:

Algoritmo 2

1. Escolha n=0,

= ∈ Λ

mn

m

x

, c₀ e L₀; 2. Faça i de 1 até L_n;

3. Gere

y

_m na vizinhança de

x

_m e gere uma variável aleatória _X _~_U₍₀_,₁₎; 4. Se f(y_m)≤ f(x_m), então x_m ←y_m;

5. Se f(y_m)> f(x_m) e 







 −

−

<

n m m

c ) x ( f ) y ( exp f

U , então x_m←y_m;

6. Fim do faça;

(8)

7. n←n+1;

8. Defina c_n^eLn, e volte até o passo 2 até um critério de parada.

Em que L_n é o número de transições da cadeia em cada temperatura (c_n).

Para obter uma aproximação numérica da solução do problema de ordenação dos marcadores, utilizando o algoritmo simulated annealing, é necessário definir um sistema de vizinhança em

Λ

, isto é, uma permutação candidata de marcadores. Adotou-se um sistema em que o vizinho típico (ordem candidata) de uma ordem

(

1, , , 1, , 1, , ,

)

i i j j k

xm m_σ m_σ m_σ m_σ m_σ m_σ

+ −

= … … … _foi _definido _como

(

1, , , 1, 2 , 1, , ,

)

i j j i j k

ym m_σ m_σ m_σ m_σ m_σ m_σ m_σ

− − +

= … … … . A Figura 1 apresenta um gráfico de

um vizinho típico “candidato” de uma ordem x_m∈Λ.

Figura 1 -Vizinho “candidato” de uma ordem

x ∈ Λ

.

O parâmetro de controle na n-ésima iteração do algoritmo, denotado por c_n, foi calculado com base na expressão, ₂,

ln( 1)

n

c A

= m

+ ^{em que}m é o número de iterações do algoritmo e A uma constante escolhida de forma conveniente.

A escolha de A é feita de forma que o algoritmo do simulated annealing escape dos mínimos locais da função de interesse (SARF), e alcance o mínimo global. Portanto, a constante A deve ser escolhida de forma que todas as ordens iniciais sejam aceitas. Neste trabalho, da mesma forma que no trabalho de Nascimento et al. (2010), utilizou-se 2 como o valor desta constante.

Para avaliar a convergência do simulated annealing utilizou-se a evolução das distâncias totais em cada iteração.

Os algoritmos foram implementados na linguagem de programação R versão 2.15.1 (R Development Core Team).

(9)

3 Resultados e discussão

A partir das informações relativas a cada par de marcadores, por exemplo, M₁/m₁ e M2/m2, obtiveram-se, por meio do método da máxima verossimilhança, os polinômios que possibilitam a estimação dos valores das frequências de recombinação entre pares de marcadores. Devido a grande quantidade de análises, mais especificamente 3.916, visto que foram simulados 89 marcadores que são combinados 2 a 2, serão apresentados os resultados da estimação da frequência de recombinação apenas para os primeiros pares de marcadores dentro de cada grupo de ligação, ou seja, M1/m1 e M2/m2, M52/m52 e M53/m53, M₇₃/m₇₃ e M₇₄/m₇₄ e, por último, M₈₄/m₈₄ e M₈₅/m₈₅. Os polinômios são dados por:

0 16 432

1030

800 1 2 1 2 1 2

2

3 + − + =

− rˆ_M_M rˆ_M_M rˆ_M_M ; 0 18 436

1030

800 52 53 52 53 52 53

2

3 + − + =

− rˆ_M _M rˆ_M _M rˆ_M _M ; 0 52 504

1058

800 73 74 73 74 73 74

2

3 + − + =

− rˆ_M _M rˆ_M _M rˆ_M _M ; 0 580

1104

800 84 85 84 85 84 85

2

3 + − =

− rˆ_M _M rˆ_M _M rˆ_M _M .

As estimativas das frequências de recombinação, obtidas no software GQMOL (Cruz, 2009) e seus respectivos intervalos de confiança, estão apresentadas na Tabela 2.

Tabela 2 - Estimativas da frequência de recombinação entre dois marcadores, considerando uma população F₂ composta de 200 indivíduos, por duas diferentes abordagens (Método da Máxima Verossimilhança e Metropolis- Hastings), e seus respectivos intervalos de confiança

Loci MMV^* LI LS MH

(r₀=0,05) LI LS MH

(r₀=0,50) LI LS

2 1M

rˆM 4,10

(0,0101)^** 2,11 6,08 4,35

(0,0103) 2,59 7,22 4,30

(0,0101) 2,57 6,50

53 52M

rˆM 4,60

(0,0107) 2,49 6,70 4,84

(0,0110) 2,90 7,22 4,84

(0,0120) 2,95 7,08

74 73M

rˆM 14,00

(0,0180) 10,29 17,70 14,24

(0,0192) 10,78 18,35 14,20

(0,0190) 10,85 18,16

85 84M

rˆM 25,90

(0,0264) 20,72 31,07

26,08

(0,0260) 21,36 31,43

26,11

(0,0264) 21,20 31,42

*MMV: Método da Máxima Verossimilhança; MH: Metropolis-Hastings; LI: Limite inferior; LS: Limite superior;^**Valores entre parênteses são os desvios padrão das estimativas das frequências de recombinação.

(10)

Para cada uma das análises realizadas (3916), o número de iterações, “burn-in” e

“thin” foram indicados de acordo com o critério de Raftery e Lewis (1992). A constatação final da convergência foi também realizada por meio do critério de Raftery e Lewis (1992), via fator de dependência, avaliado no pacote BOA (“Bayesian Output Analysis”) do software R (Smith, 2007).

Tanto os valores estimados para a frequência de recombinação quanto seus respectivos intervalos de confiança apresentaram valores similares pelas duas diferentes abordagens realizadas (Tabela 2). Em relação ao algoritmo de Metropolis-Hastings observou-se também que o uso de diferentes valores iniciais para a cadeia não influencia o resultado da estimação (Tabela 2).

Observou-se também que apenas os intervalos de confiança referentes ao par de marcadores _M₅₂_e_M₅₃ continham o valor paramétrico, ou seja, 5 cM entre marcas adjacentes (Tabela 2). Esse resultado evidencia que a população simulada constituída de 200 indivíduos não foi capaz de reproduzir fielmente o mapa com precisão adequada.

Após a estimação das frequências de recombinação entre os pares de marcadores, determinou-se a melhor ordem para os marcadores dentro de cada grupo de ligação simulado.

De acordo com o software GQMOL, que encontra a solução do problema através do método delineação rápida em cadeia, o primeiro grupo de ligação é ordenado da seguinte forma m₁,m₂,…,m₅₁. Essa ordem possui uma distância total de 112,00 cM. Já a solução obtida pelo método de otimização estocástica foi:

51 50 46 45 43 44 42 40 41 39 37 36 35 34 38 33 5 4 2 3

1,m ,m ,m ,m , ,m ,m ,m m ,m ,m ,m ,m ,m m m ,m ,m ,m , ,m ,m

m … _, _, _, … ,

a qual tem uma distância total de 111,50 cM, ou seja, inferior à solução obtida pelo método delineação rápida em cadeia. Para os demais grupos de ligação, as soluções obtidas pelos dois métodos são equivalentes, ou seja, _m₅₂_,^…_,_m₇₂, _m₇₃_,^…_,_m₈₃ e _m₈₄_,^…_,_m₈₉, para os grupos de ligação 2, 3 e 4 respectivamente. Essas ordens possuem a distância total de 101,40, 111,50 e 105,00 cM, respectivamente.

A Figura 2 apresenta a evolução das distâncias total a cada iteração do algoritmo nos grupos de ligação analisados.

Verificou-se que quanto maior o número de marcas no grupo de ligação maior o número de iterações necessárias para que o algoritmo obtenha um resultado satisfatório (Figura 2).

Para grupos de ligação mais saturados, isto é com distâncias entre marcas adjacentes menores, 2 cM, o algoritmo do simulated annealing obteve resultados semelhantes ou melhores (menor SARF) que o método de delineação rápida em cadeia. Este melhor desempenho é também explicado pelo número de marcadores, visto que o simulated annealig analisa um maior número de possíveis ordens. Já para os demais grupos de ligação que possuem níveis de saturação menores e consequentemente menor número de marcadores os métodos utilizados neste estudo apresentaram resultados similares.

(11)

(A)

Iterações

distância total percorrida (SARF)

0 20 40 60 80 100 120

120140160180200220

(B)

Iterações

0 10 20 30 40

100110120130140150160

(C)

Iterações

1 2 3 4 5 6 7 8

110120130140150160170

(D)

Iterações

1 2 3 4 5

105110115120125130

Figura 2-Evolução das distâncias total a cada iteração do algoritmo. (A) grupo de ligação 1 (B) grupo de ligação 2 (C) grupo de ligação 3 (D) grupo de ligação 4.

Conclusões

Diante destes resultados, verificou-se que os métodos de simulação de Monte Carlo via aldeias de Markov apresentaram resultados satisfatórios tanto para estimação da frequência de recombinação quanto na ordenação de marcadores, especificamente o algoritmo de Metropolis-Hastings proporcionou resultados semelhantes aos obtidos pelo método da máxima verossimilhança e, com respeito à ordenação de marcadores, para grupos com maior número de marcas, 51 marcas, o método baseado em simulação estocástica, simulated annealing, apresentou ordens com distância (SARF) iguais ou menores que o método delineação rápida em cadeia. Nos demais casos, ambos os métodos foram equivalentes, apresentando mesma distância SARF.

NASCIMENTO, M.; CRUZ, C. D.; NASCIMENTO, A. C. C.; FERREIRA, A.;

PETERNELLI, L. A.; SILVA, F. F.; CECON, P. R. Construction of linkage maps by Markov Chain Monte Carlo method. Rev. Bras. Biom., São Paulo, v.30, n.3, p.434-446, 2012.

ABSTRACT: The objective of this work was to present and evaluate the efficiency of the use of Markov Chain Monte Carlo Methods (MCMC) in genetic mapping. It was used the Metropolis-

(12)

Hastings algorithm to estimate the frequency of recombination between two markers and the simulated annealing to ordering of the genetic markers within each linkage group. In order to evaluate the capacity of algorithms, an F2 co-dominant population with 200 individuals, were simulated. For this population, a genome with four linkage groups (100 cM) was generated. The linkage groups possessed 51, 21, 11 and 6 marks, respectively, and a corresponding distance of 2, 5, 10 and 20 cM between adjacent marks, thereby causing various degrees of saturation.

Metropolis-Hastings algorithm presented equivalent results to the analytical solution. The method based upon stochastic simulation by simulated annealing presented orders with distances equivalent to or lower than rapid chain delineation. Thereby the MCMC methods were a viable and simple alternative for genetic mapping studies.

KEYWORDS: MCMC; genetic mapping; molecular markers.

Referências

BHERING, L. L.; CRUZ, C. D.; GOD, P. I. V. G. Estimativa de frequência de recombinação no mapeamento genético de famílias de irmãos completos. Pesq. Agropec.

Bras., Brasília, v.43, n.3, p.363-369, 2008.

BOLFARINE, H.; SANDOVAL, M. C. Introdução a inferência estatística. Rio de Janeiro: SBM, 2001. 125p.

BUETOW, K. H.; CHAKRAVARTI, A. Multipoint gene mapping using seriation. I.

General methods. Am. J. Human Genet., Cambridge, v.41, p.180-188, 1987a.

BUETOW, K. H.; CHAKRAVARTI, A. Multipoint gene mapping using seriation. II.

Analysis of simulated and empirical data. Am. J. Human Genet., Cambridge, v.41, p.189- 201, 1987b.

CARNEIRO, N. S.; VIEIRA, M. L. C. Mapas genéticos em plantas. Bragantia, Campinas, v.61, p.89-100, 2002.

CRUZ, C. D. Gqmol: programa para análise de genética quantitativa molecular Versão 2012.1.1. (2009). Disponível em: <www.ufv.br/ dbg/gqmol/gqmol.htm>. Acesso em:

Ago. 2012.

DOERGE, R. Constructing genetic maps by rapid chain delineation. J. Quant. Trait Loci, v.2, p.121-132, 1996.

FERREIRA, A.; SILVA, M. F.; SILVA, L. C.; CRUZ, C. D. Estimating the effects of population size and type on the accuracy of genetic maps. Genet. Mol. Biol., Ribeirão Preto, v.29, p.187-192, 2006.

HASTINGS, W. Monte Carlo sampling methods using Markov chains and their applications. Biometrika, Oxford, v.57, n.1, p.97-109, 1970.

KIRKPATRICK, S.; GELATT, C. D.; VECCHI, M. P. Optimization by simulated annealing. Science, Washigton, v.22, p.671-680, 1983.

METROPOLIS, N.; ROSENBLUTH, A.; ROSENBLUTH, M.; TELLER, A.; TELLER, E. Equation of state calculations by fast computing machine. J. Chem. Phys., College Park, v.21, p.1087-1091, 1953.

(13)

NASCIMENTO, M.; CRUZ, C. D.; PETERNELLI, L.A.; CAMPANA, A. C. M.

Comparison between simulated annealing algorithms and rapid chain delineation in the construction of genetic maps. Genet. Mol. Biol., Ribeirão Preto, v.33, p.398-408, 2010.

PAULINO, C.D.; TURKMAN, M. A.; MURTEIRA, B. Estatística Bayesiana. Lisboa:

Fundação Calouste Gulbenkiman, 2003. 429p.

R Development Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria, 2010. URL <http://www.r- project.org>

RAFTERY, A. L.; LEWIS, S. M. Comment: one long run with diagnostics:

implementation strategies for Markov chain Monte Carlo. Stat. Sci., Bethesda, v.7, p.493- 497, 1992.

ROBERT, C.; CASELLA, G. Monte Carlo statistical methods. New York: Springer, 2004. 645p.

ROSADO, T. B.; TOMAZ, R. S.; RIBEIRO JUNIOR, M. F.; ROSADO, A. M.;

GUIMARÃES, L. M. S.; ARAÚJO, E. F.; ALFENAS, A. C.; CRUZ, C. D. Detection of QTL associated with rust resistance using IBD-based methodologies in exogamic Eucalyptus spp. Populations. Crop Breed. Appl. Biotechnol., Viçosa, v.10, p. 321-328, 2010.

SCHUSTER, I.; CRUZ, C. D.Estatística genômica - Aplicada a populações derivadas de cruzamentos controlados.Viçosa: UFV, 2008. 568p.

SMITH, B. J. Boa: an R package for MCMC output convergence assessment and posterior inference. J. Stat. Softw., Los Angeles, v.21, p.1-37, 2007.

THOMPSON, E. A. Crossover counts and likelihood in multipoint linkage analysis. J.

Math. Appl. Med. Biol., Oxford, v.4, p.93-108, 1987.

WEIR, B. Genetic data analysis. Sunderland: Sinauer Associates, 1996. 447p.

Recebido em 20.09.2012 Aprovado após revisão 26.02.2013