• Nenhum resultado encontrado

Computação da Seleção Genômica Ampla (GWS)

N/A
N/A
Protected

Academic year: 2021

Share "Computação da Seleção Genômica Ampla (GWS)"

Copied!
79
0
0

Texto

(1)

Documentos

210

Embrapa Florestas Colombo, PR 2010

Empresa Brasileira de Pesquisa Agropecuária Embrapa Florestas

Ministério da Agricultura, Pecuária e Abastecimento

Marcos Deon Vilela de Resende

Márcio Fernando Ribeiro Resende Júnior Aurelio Mendes Aguiar

Jupiter Israel Muro Abad Alexandre Alves Missiaggia Carolina Sansaloni

Cesar Petroli Dario Grattapaglia

Computação da Seleção

Genômica Ampla (GWS)

(2)

© Embrapa 2010 Embrapa Florestas

Estrada da Ribeira, Km 111, Guaraituba, 83411-000, Colombo, PR - Brasil Caixa Postal: 319

Fone/Fax: (41) 3675-5600 www.cnpf.embrapa.br sac@cnpf.embrapa.br

Comitê de Publicações da Unidade Presidente: Patrícia Póvoa de Mattos

Secretária-Executiva: Elisabete Marques Oaida

Membros: Antonio Aparecido Carpanezzi, Claudia Maria Branco de Freitas Maia, Cristiane Vieira Helm, Elenice Fritzsons, Jorge Ribaski, José Alfredo Sturion, Marilice Cordeiro Garrastazu, Sérgio Gaiad Supervisão editorial: Patrícia Póvoa de Mattos

Revisão de texto: Mauro Marcelo Berté Normalização bibliográfica: Francisca Rasche Editoração eletrônica: Mauro Marcelo Berté

1a edição

1a impressão (2010): sob demanda

Todos os direitos reservados

A reprodução não-autorizada desta publicação, no todo ou em parte, constitui violação dos direitos autorais (Lei no 9.610).

Dados Internacionais de Catalogação na Publicação (CIP) Embrapa Florestas

Computação da Seleção Genômica Ampla (GWS) [recurso eletrônico] / Marcos Deon Vilela de Resende ... [et al.]. Dados eletrônicos - Colombo : Embrapa Florestas, 2010.

CD-ROM. - (Documentos / Embrapa Florestas, ISSN 1679-2599 ; 210)

1. Melhoramento vegetal 2. Melhoramento animal. 3. Seleção genotípica. 4. Seleção fenotípica. 5. Software. I. Resende, Marcos Deon Vilela de. II. Resende Júnior, Márcio Fernando Ribeiro. III. Aguiar, Aurelio Mendes. IV. Abad, Jupiter Israel Muro. V. Missiaggia, Alexandre Alves. VI. Sansaloni, Carolina. VII. Petroli, Cesar. VIII. Grattapaglia, Dario. IX. Série.

(3)

Marcos Deon Vilela de Resende

Estatístico, Doutor,

Pesquisador da Embrapa Florestas deon@cnpf.embrapa.br

Márcio Fernando Ribeiro Resende Júnior

Engenheiro Florestal, Mestre,

Doutorando na Universidade da Flórida mresende@ufl.edu

Aurelio Mendes Aguiar

Engenheiro Agrônomo, Doutor, Pesquisador da Fibria

aurelio.aguiar@fibria.com.br

Jupiter Israel Muro Abad

Engenheiro Florestal, Doutor, Pesquisador da Fibria

(4)

Engenheiro Florestal, Doutor, Pesquisador da Fibria

amissiaggia@fibria.com.br

Carolina Paola Sansaloni

Bacharel em Genética, Mestre Doutorando em Biologia Molecular Universidade de Brasília

carosansaloni@hotmail.com

Cesar Daniel Petroli

Bacharel em Genética, Mestre Doutorando em Biologia Molecular Universidade de Brasília

petrolic@hotmail.com

Dario Grattapaglia

Engenheiro Florestal, Doutor, Pesquisador da Embrapa Recursos Genéticos e Biotecnologia

(5)

A seleção genômica ampla é uma metodologia que, de forma pioneira, integra as tecnologias genômicas e as ferramentas da genética quantitativa e do melhoramento, propiciando um grande salto qualitativo nos sistemas de avaliação genética. Esta nova abordagem experimental vem rapidamente mudando os paradigmas do melhoramento genético de animais domésticos e plantas, causando uma verdadeira revolução na nossa

capacidade de prever fenótipos e, com isso, aumentar a acurácia seletiva em idade precoce, maximizando o ganho genético por unidade de tempo.

A presente publicação aborda os métodos estatísticos, as estratégias computacionais e softwares para a implementação prática da seleção genômica ampla no melhoramento genético. Elaborada por uma equipe interinstitucional, envolvendo a academia e a iniciativa privada, apresenta também um exemplo prático de sua aplicação no melhoramento do eucalipto.

Assim, trata-se de uma contribuição à difusão, ensino e aplicação operacional da seleção genômica nos programas de melhoramento de plantas e animais em andamento no País.

Helton Damin da Silva Chefe-Geral

(6)
(7)

Métodos para GWS ...9

Teoria dos métodos de regressão ...16

Computação do método Random (Ridge) Regression BLUP

(RR-BLUP/GWS) ...18

Fenótipos corrigidos ...23

Frequências alélicas, variância dos marcadores e

herdabilidade ...27

Marcadores codominantes (SNP) – Modelo genotípico ... 27

Marcadores dominantes (DArT) - Modelo genotípico ... 30

Marcadores codominantes (SNP) – Modelo gamético ou alélico .... 32

Número de marcadores com efeitos significativos ...34

Populações de estimação, validação e seleção ...45

População de validação e Jacknife ...48

Correlação e regressão entre valores genéticos preditos e

fenótipos na população de validação ...49

Análise de associação na GWAS ...50

Software Selegen Genômica: Random (Ridge) Regression

BLUP: RR-BLUP/GWS ...54

Exemplo aplicado ao melhoramento do eucalipto ...65

Softwares em R ...72

(8)
(9)

Genômica Ampla (GWS)

Marcos Deon Vilela de Resende

Márcio Fernando Ribeiro Resende Júnior Aurelio Mendes Aguiar

Jupiter Israel Muro Abad Alexandre Alves Missiaggia Carolina Sansaloni

Cesar Petroli Dario Grattapaglia

Métodos para GWS

A seleção genômica ampla (GWS) ou seleção genômica (GS) foi proposta por Meuwissen et al. (2001) como uma forma de aumentar a eficiência e acelerar o melhoramento genético. A GWS enfatiza a predição simultânea (sem o uso de testes de significância para marcas individuais) dos efeitos genéticos de milhares de marcadores genéticos de DNA (SNP, DArT, microssatélites) dispersos em todo o genoma de um organismo, de forma a capturar os efeitos de todos os locos (tanto de pequenos quanto de grandes efeitos) e explicar toda a variação genética de um caráter quantitativo. A condição fundamental para isso é que haja desequilíbrio de ligação, em nível

populacional, entre alelos dos marcadores e alelos dos genes que controlam o caráter. A predição dos efeitos genéticos é realizada com base em dados genotípicos e fenotípicos de indivíduos pertencentes a uma amostra da população de seleção. Esses efeitos genéticos dos marcadores sobre fenótipos de caracteres quantitativos são somados e usados na predição de valores genéticos de indivíduos apenas genotipados, candidatos à seleção em programas de melhoramento genético. A predição

(10)

e a seleção podem ser realizadas em fases muito juvenis de plantas e animais, acelerando assim o processo de melhoramento genético. Adicionalmente, a própria predição tende a ser mais acurada por considerar o real parentesco genético dos indivíduos em avaliação, em detrimento do parentesco médio esperado matematicamente (RESENDE, 2007). A GWS propicia uma forma de seleção precoce direta (SPD), pois, atua precocemente sobre genes expressos na idade adulta. Ao contrário, a seleção precoce tradicional é indireta, pois atua (via avaliação fenotípica) sobre genes ativados na idade precoce, esperando que esses informem parcialmente sobre genes expressos na idade adulta. Assim, a SPD propiciada pela GWS é especialmente importante para o melhoramento de organismos perenes como animais, espécies florestais, fruteiras (e outras frutíferas), forrageiras, cana-de-açúcar, dentre outras.

Em resumo, a superioridade da GWS sobre a seleção baseada em fenótipos pode ser atribuída a quatro fatores: (i) uso da matriz de parentesco real e própria de cada caráter, fato que aumenta a acurácia seletiva; (ii) viabilização da SPD, que aumenta o ganho genético por unidade de tempo; (iii) permissão da avaliação repetida de cada alelo (propicia repetição experimental) sem o uso de testes clonais e de progênies, fato que aumenta a acurácia seletiva; (iv) uso de maior número de informações, combinando três tipos de informação (fenotípica, genotípica e genealógica) para corrigir e desregressar os dados e fazer a análise genômica, fato que aumenta a acurácia.

A GWS é um produto do terceiro milênio. Após a proposição da GWS em 2001, o procedimento permaneceu discreto até 2007, quando vários trabalhos abordaram o método e sua acurácia no melhoramento animal e vegetal (FERNANDO et al., 2007; GODDARD; HAYES, 2007; MEUWISSEN, 2007; BERNARDO; YU, 2007; RESENDE 2007). Outros trabalhos relatam que a GWS é o novo paradigma em genética quantitativa (RESENDE,

(11)

2008; GIANOLA et al., 2009), melhoramento de gado de leite (HAYES et al., 2009; VAN RADEN, 2008; VAN RADEN et al., 2009), de aves (GONZALEZ-RECIO et al., 2009), de plantas anuais (HEFFNER et al., 2009), de espécies florestais (RESENDE et al. 2008; GRATTAPAGLIA; RESENDE, 2010) e de outras plantas perenes (DIAS; RESENDE, 2009).

Vários métodos de predição de valores genéticos genômicos foram propostos: quadrados mínimos (LS), BLUP/GWS, BayesA e BayesB (MEUWISSEN et al., 2001), regressão kernel não paramétrica via modelos aditivos generalizados (GIANOLA et al., 2006), aprendizado de máquina (LONG et al., 2007), regressão RKHS (Reproducing Kernel Hilbert Spaces) (GIANOLA et al., 2008), LASSO Bayesiano (PARK; CASELLA, 2008; CAMPOS et al., 2009), Bayes B Acelerado (MEUWISSEN, 2009), Bayes C, BayesCπ, BayesD, BayesDπ (HABIER et al., 2010), Regressão via Quadrados Mínimos Parciais (PLSR) (SOLBERG et al., 2009) e Regressão via Componentes Principais (PCR) (SOLBERG et al., 2009). Os métodos BLUP (regressão aleatória), LASSO (Least Absolute Shrinkage and Selection Operator) e Bayes A e B pertencem à classe de regressão explícita. Por outro lado, o método RKHS pertence à classe de regressão implícita e é um método semiparamétrico (GIANOLA; VAN KAAM, 2008; GIANOLA; CAMPOS, 2009).

Conforme Resende (2007, 2008), essas abordagens diferem na suposição sobre o modelo genético associado ao caráter quantitativo. O BLUP assume o modelo infinitesimal com muitos locos de pequenos efeitos; o AM assume que existe um número limitado de genes e de SNPs a serem ajustados; o método BayesB é intermediário entre esses dois, assumindo poucos genes de grandes efeitos e muitos genes com pequenos efeitos. No método BayesB muitos efeitos de marcadores são assumidos como zero, a priori. Isso reduz o tamanho do genoma por meio da concentração nas partes do mesmo onde existem QTLs. O

(12)

melhor método é aquele que reflete melhor a natureza biológica do caráter poligênico em questão, em termos de efeitos gênicos. O método quadrados mínimos (regressão fixa) é ineficiente devido a: impossibilidade de estimar todos os efeitos

simultaneamente, pois o número de efeitos a estimar é maior do que o número de dados; estimando um efeito de cada vez e verificando a sua significância, conduz a superestimativas dos efeitos significativos; a acurácia do método é baixa; somente QTLs de grande efeito serão detectados e usados e, consequentemente, nem toda a variação genética será capturada pelos marcadores.

O método de quadrados mínimos assume distribuição a priori para os QTLs, com variância infinitamente grande, fato que é incompatível com a conhecida variância genética total. O BLUP/ GWS assume os efeitos de QTL com distribuição normal com variância constante para todos os segmentos cromossômicos. Esse método contorna, por meio da estimação simultânea dos efeitos de todos os marcadores, a questão da necessidade de estimação de um grande número de efeitos a partir de um tamanho amostral restrito e, adicionalmente, a questão do fato de que muitos efeitos mostram colinearidade advinda do desequilíbrio de ligação entre os próprios marcadores.

A distribuição dos efeitos de QTL é conhecida em poucos caracteres e espécies. Em gado bovino leiteiro, Goddard e Hayes (2007) relatam a presença de 150 QTLs para o caráter produção de leite e estimaram a distribuição de seus efeitos como aproximadamente exponencial (HAYES; GODDARD, 2009). Com distribuição exponencial e não muitos efeitos com valor zero, o melhor estimador dos efeitos alélicos é denominado LASSO (TIBSHIRANI, 1996). Entretanto, com muitos efeitos com valor zero, o LASSO não é adequado. Usai et al. (2009) compararam o LASSO com BLUP e Bayes A empregando 156

(13)

SNPs significativos. As acurácias obtidas foram das ordens de 0,89, 0,75 e 0,84, respectivamente. Assim, o LASSO é uma boa opção quando se usa um número limitado de marcadores.

Comparações entre os métodos de predição de valores genéticos genômicos têm sido realizadas. Meuwissen et al. (2001)

concluíram pela superioridade teórica do método Bayes B, o qual mostrou-se ligeiramente superior ao BLUP. Hayes et al. (2009) avaliaram a efetividade prática da seleção genômica em gado de leite nos Estados Unidos, Austrália e Nova Zelândia. Concluíram que o método BLUP mostrou-se aproximadamente igual a outros métodos mais complexos, em termos de acurácia. Isso ocorre para caracteres em que o modelo infinitesimal (muitos genes de pequenos efeitos) se aplica. Adicionalmente, o método BLUP é vantajoso porque a única informação a priori necessária é uma estimativa da variância genética aditiva do caráter. Os autores relataram também a importância da inclusão do efeito poligênico no modelo de avaliação genética, como forma de capturar e selecionar QTLs de baixa frequência não capturados pelos marcadores.

Habier et al. (2007) compararam os métodos de quadrados mínimos (denominado por eles como regressão fixa ou FR-LS), BLUP (denominado por eles como regressão aleatória ou RR-BLUP) e Bayes B, em termos de acurácia seletiva na seleção em longo prazo, após várias gerações depois da predição dos efeitos genéticos dos marcadores. Nessa situação, a acurácia tende a diminuir devido à modificação das relações de parentesco (em relação ao parentesco na geração de estimação dos efeitos genômicos), mas há um componente persistente da acurácia devido ao LD. Os resultados mostraram que o decréscimo na acurácia devido à modificação das relações de parentesco é maior no método RR-BLUP. Inicialmente, os métodos RR-BLUP e Bayes B apresentaram acurácia similar, mas, após 11 gerações, o método Bayes B superou o RR-BLUP.

(14)

Os métodos bayesianos estão associados a sistemas de equações não lineares e as predições não lineares podem ser melhores quando os efeitos de QTL não são normalmente distribuídos, devido à presença de genes de efeitos maiores. As predições lineares associadas ao RR-BLUP assumem que todos os marcadores contribuem igualmente para a variação genética (ausência de genes de efeitos maiores).

Gonzalez-Recio et al. (2008) compararam métodos não

paramétricos ou semiparamétricos (RKHS), regressão bayesiana e BLUP/GWS em termos de eficiência na seleção genômica. Concluíram que o método da regressão RKHS (Reproducing Kernel Hilbert Spaces) apresentou melhor capacidade preditiva do que os demais. Esse método equivale ao BLUP modelo animal com a matriz de parentesco substituída pelos kernels (RESENDE, 2008). O método não paramétrico RKHS parece ter maior

capacidade preditiva quando aplicado a dados reais (GIANOLA et al., 2009). O Lasso Bayesiano é também interessante pois usa amostragem de Gibbs, uma vez que se conhece a distribuição condicional completa. Outros métodos foram avaliados por Solberg et al. (2009): Regressão via quadrados mínimos parciais (PLSR) e Regressão via componentes principais (PCR). Concluíram que esses são mais simples e rápidos

computacionalmente, porém menos acurados que o Bayes B, com acurácias da ordem de 0.68 (PLSR e PCR) e 0.84 (Bayes B). Gianola et al. (2009) fazem uma análise crítica dos métodos associados a modelos hierárquicos bayesianos (Bayes A e B) especificamente em relação às suas formulações em termos dos hiperparâmetros que propiciam variâncias específicas para cada marcador. Segundo os autores, nenhum dos métodos permite o aprendizado bayesiano sobre essas variâncias para prosseguir para longe das prioris. Em outras palavras, os hiperparâmetros a priori para essas variâncias sempre terão influência na extensão do shrinkage produzido nos efeitos dos marcadores. O usuário

(15)

do método pode controlar a quantidade de shrinkage apenas arbitrariamente, por meio da variação nos parâmetros

υ

e S

(associados à distribuição qui-quadrado invertida assumida como priori). Segundo os autores, o método Bayes B não é bem formulado no contexto bayesiano. Isto porque designar a priori que 2

=

0

gi

σ

, não conduz necessariamente a gi = 0, conforme intenção original de Meuwissen et al. (2001), em que gi é o efeito genético do loco i. Sugerem então que o estado zero seja especificado ao nível dos efeitos e não ao nível das variâncias. Assim, à probabilidade de mistura π poderia ser atribuída uma distribuição a priori Beta. Surge então, o método Bayes C que é vantajoso e permite especificar uma distribuição a priori para π, permitindo a modelagem da distribuição dupla exponencial. Os métodos bayesianos para a GWS são tratados com mais detalhe em Resende (2008).

Vários outros métodos bayesianos foram propostos (Bayes Cπ, Bayes D, Bayes Dπ, conforme Habier et al., 2010), todos eles com o propósito de facilitar a aplicação do método Bayes B que é conceitualmente ideal, mas computacionalmente lento. Habier et al. (2010) relataram que nenhum dos métodos bayesianos são claramente superiores dentre eles; entretanto, o Bayes B, Bayes Cπ e Bayes Dπ apresentam a vantagem de propiciar informação sobre a arquitetura genética do caráter quantitativo e identificar as posições de QTL por modelagem da frequência de SNP. Os métodos bayesianos são superiores quando a distribuição dos efeitos dos QTL é leptocúrtica (curtose positiva), devido à presença de genes de grandes efeitos. Com distribuição normal dos efeitos dos QTL, o método RR-BLUP é igualmente eficiente. Provavelmente, isso se aplica para a maioria dos caracteres quantitativos, pois, genes de grandes efeitos tendem a ser fixados ou eliminados e não mantidos em nível polimórfico nas populações. O RR-BLUP assume iguais e pequenas herdabilidades por loco, causando uma alta regressão em QTL de grandes

(16)

O uso de um único para todos os marcadores não conduz nessariamente ao mesmo shrinkage para todos, pois, a variação nas frequências alélicas entre marcadores podem conduzir a diferentes graus de shrinkage.

Teoria dos métodos de regressão

Em um problema de regressão tem-se que a variável dependente y é dada como função de uma variável preditora (x) e vetor de erros aleatórios (e), segundo o modelo

y

=

β

'

x

+

e

. No contexto da seleção genômica, define-se x como um vetor de genótipos marcadores codominantes codificados como 0, 1 ou 2, de acordo com o número de cópias de um dos alelos do loco marcador. E β é definido como um vetor de coeficientes de regressão que contemplam os efeitos dos marcadores (via desequilíbrio de ligação com os genes) no caráter fenotípico y. Usando esperança condicional, a equação de regressão é dada por:

)

|

(

'

ˆ

ˆ

x

E

y

x

y

=

β

=

Isso implica ] ) , | ( ) ( [ / ] ) , | ( ) ( [ ) , | ( ˆ = β =

β β β β

β β β β E x y p p y x d p p y x d

em que

p

)

é a função densidade de probabilidade de β e

)

,

|

(

y

x

p

β

é a função de verossimilhança de y.

Assim, a predição de y depende de

p

)

, ou seja, da

distribuição dos efeitos (via LD com os QTLs) dos marcadores. Essa distribuição pode ser tratada como informação ou

distribuição a priori no contexto bayesiano ou como variável aleatória no contexto frequentista. Se ~ (0, 2)

β σ β N ,

β

ˆ

é ) / ( / / 2 2 2 2 n g e i g e σ σ σ σ λ= =

(17)

BLUP de β e

é BLUP de y. Isto implica que os efeitos de todos os marcadores são tomados da mesma distribuição. Alternativamente, pode ser assumido que ~ (0, 2)

i N

i σβ

β , em

que βié tomado de uma distribuição qui-quadrado invertida, segundo o enfoque bayesiano. Nesse caso, isso implica que grande número de marcadores apresenta efeitos pequenos e poucos marcadores apresentam efeitos grandes.

Esse método BLUP para os coeficientes de regressão é

denominado regressão aleatória ou regressão de cumeeira (Ridge Regression) (RR-BLUP). Os coeficientes de regressão ridge são definidos como aqueles que minimizam a soma de quadrados

penalizada dada por

= = + − n i i N j n i ij i j x y N 1 2 1 2 ) ( ) / 1 ( β λ β

em que λ é o parâmetro de penalização (ou shrinkage) ou

parâmetro ridge, n é o número de marcadores e N é o número de indivíduos. O primeiro termo da equação é a soma de quadrados dos resíduos da regressão e o segundo termo é a penalização, a qual depende da magnitude dos coeficientes de regressão via

= n i1 i 2 β .

Outro método relacionado é o LASSO, que combina

shrinkage (regularização) com seleção de variáveis e envolve o seguinte problema de otimização, via minimização de

| | ) ( ) / 1 ( 1 1 2

= = + − n i i N j n i ij i j x y N β λ β , em que | | 1

= n i i β é a

soma dos valores absolutos dos coeficientes de regressão. As soluções em que os coeficientes de regressão se distanciam de zero sofrem penalização. O componente | |

1

= n i i β λ

regulariza a regressão sem penalizar muito. O parâmetro de suavização

λ

controla a intensidade da regularização. O LASSO pode ser implementado também via abordagem bayesiana, em que

λ

controla a precisão da distribuição a priori atribuída aos coeficientes de regressão.

(18)

Computação do método Random

(Ridge) Regression BLUP (RR-BLUP/

GWS)

O método RR-BLUP/GWS usa preditores do tipo BLUP, mas os efeitos de marcadores não são ajustados como variáveis classificatórias e sim como variáveis explicativas ou explanatórias. Assim, são variáveis regressoras e são ajustadas como covariáveis de efeitos aleatórios, ou seja, os fenótipos são regressados com base nessas covariáveis. O fato de serem covariáveis e não variáveis classificatórias, conduz a diferentes matrizes de incidência e consequentemente diferentes algoritmos computacionais em relação ao BLUP tradicional. O nome mais apropriado é regressão aleatória (random regression) do tipo BLUP (RR-BLUP) aplicado à seleção genômica ampla (RR-BLUP/ GWS). A técnica da regressão aleatória é um tipo especial da regressão de cumeeira (ridge regression).

Os estimadores associados à regressão aleatória e regressão de cumeeira promovem shrinkage ditado por uma função da quantidade λ. Quando λ não é conhecido, a escolha arbitrária do mesmo leva ao método de regressão ridge regression (RR). Se o parâmetro de regressão for associado a 2 / 2 2 /( 2/n)

g e i g e σ σ σ σ λ= =

tem-se a regressão aleatória BLUP para o efeito do segmento cromossômico i, em que 2

i g

σ é a variância genética associada ao loco ou segmento i e 2

g

σ e 2

e

σ são a variância genética do caráter e variância residual, respectivamente. A quantidade n é desconhecida a priori, mas pode ser inferida conforme descrito adiante. O parâmetro de penalização λ pode também ser determinado por via iterativa ou sintonia, escolhendo-se aquele que maximiza a correlação entre valor fenotípico e valor genético predito na validação cruzada. Whittaker et al. (2000) e Meuwissen et al. (2001) foram pioneiros em propor a predição simultânea dos efeitos dos marcadores, sem o uso de testes de significância para marcas individuais. Isto contrasta com

(19)

o método da MAS proposto por Lande e Thompson (1990) e discutido por Gianola et al. (2003).

A distinção entre regressão fixa, regressão ridge e regressão aleatória está associada ao parâmetro de penalização λ*, o

qual é dado por λ*=(1h2)/h2. Valores pequenos de λ* já são

suficientes para reduzir o impacto da multicolinearidade entre as covariáveis presente na matriz Z´Z, que é aproximadamente singular. Valor de λ* igual a zero (valor de h2 igual a 1)

caracteriza a regressão fixa. Valores de λ* pequenos (0,01 a 1)

caracterizam a regressão ridge e valores altos de λ* (maiores

que 0,1) caracterizam a regressão aleatória (Tabela 1). No caso do método RR-BLUP, um mesmo parâmetro de penalização é aplicado para todas as marcas, ao passo que o método Bayes B permite definir λ* específicos para cada marcador.

Tabela 1. Classificação dos tipos de regressão em função do parâmetro de penalização.

Tipo de Regressão Penalização λ*=(1h2)/h2 Herdabilidade Individual

) 1 /( 1 * 2 = +λ h Fixa 0,00 1 Ridge; Aleatória 0,11 0,9 Ridge; Aleatória 0,25 0,8 Ridge; Aleatória 0,43 0,7 Ridge; Aleatória 0,67 0,6 Ridge; Aleatória 1,00 0,5 Aleatória 1,50 0,4 Aleatória 2,33 0,3 Aleatória 4,00 0,2 Aleatória 9,00 0,1 Aleatória 99,0 0,01 Aleatória 999,0 0,001

(20)

A predição via RR-BLUP/GWS é descrita a seguir com base em Resende (2007a; 2008). O seguinte modelo linear misto geral é ajustado para estimar os efeitos dos marcadores:

y = Xb + Zm + e,

em que y é o vetor de observações fenotípicas, b é o vetor de efeitos fixos, m é o vetor dos efeitos aleatórios de marcadores e e refere-se ao vetor de resíduos aleatórios. X e Z são as matrizes de incidência para b e m.

A matriz de incidência Z contém os valores 0, 1 e 2 para o número de alelos do marcador (ou do suposto QTL) em um indivíduo diplóide. Outra forma equivalente de codificar é usar os valores -1, 0 e 1. Esse é o modelo genotípico. Se células haplóides (sêmen) são usadas, tem-se o modelo gamético, e a matriz Z contém apenas os valores 0 e 1.

As equações genômicas de modelo misto para a predição de m via o método RR-BLUP/GWS equivalem a:

      =               + mb ZX yy n I Z Z X Z Z X X X g e ' ' ˆ ˆ ) / ( ' ' ' ' 2 2 σ σ

O valor genético genômico global do indivíduo j é dado por

= = i i i j Z m y VGG ˆ ˆ ,

em que Zi equivale a 0, 1 ou 2 para os genótipos aa, Aa e AA, respectivamente, para marcadores bialélicos e codominantes como os SNPs. Para marcadores dominantes, AA e Aa ficam confundidos e deveriam receber um peso médio de 1,33 na matriz Z, dado por 0,33 x 2 + 0,66 x 1.

As equações de predição apresentadas acima assumem a priori que todos os locos explicam iguais quantidades da variação

(21)

genética. Assim, a variação genética explicada por cada loco é dada por σg2 /n, em que σ2g é a variação genética total e n é o

número de locos (quando cada loco está perfeitamente marcado por uma só marca). A variação genotípica 2

g

σ

pode ser estimada por REML sobre os dados fenotípicos da maneira tradicional ou pela própria variação entre os marcadores ou segmentos cromossômicos de QTL, conforme descrito adiante.

Verifica-se que não há necessidade de uso da matriz de

parentesco. A matriz de parentesco baseada em pedigree usada no BLUP tradicional é substituída por uma matriz de parentesco estimada pelos marcadores. Essa matriz de parentesco é

função da própria matriz Z’Z presente nas equações de modelo misto. Esse procedimento é superior ao uso do pedigree, pois efetivamente captura a matriz de parentesco realizada para cada caráter e não uma matriz de parentesco médio associada ao pedigree. Por exemplo, a correlação genética aditiva entre dois irmãos completos, baseada em pedigree é 0,5. Mas os marcadores podem indicar que o valor verdadeiro é uma fração entre 0 e 1. O valor 0,5 é esperado em média. Mas a correlação pode ser 0, 0,5 ou 1,0, em cada loco, em função do número de alelos idênticos compartilhados entre os dois irmãos.

A matriz de parentesco realizada pode ser também computada à parte e incorporada nas equações de modelo misto do BLUP tradicional, conforme o modelo (iii) descrito a seguir. Nesse caso, ela é dada por =( * *')/ [2

n (1 )]

i i i p p Z Z A

(para SNPs sob modelo genotípico) em que pi é a frequência de um dos alelos do loco i e Z* refere-se à matriz Z corrigida para suas médias em cada loco (2pi). Para garantir A como uma matriz positiva definida, pode-se obter Ap = A + 10-6 I,

em que I é uma matriz identidade. O coeficiente de endogamia genômico para o indivíduo i é dado por Aii – 1. Outra forma de obter A é via A = Z*DZ*', em que D é diagonal com D

(22)

por Dii =1/{n[ 2pi(1− pi)]}, em que n é o número de marcadores (VAN RADEN, 2008).

A diagonal da matriz ZZ’ contempla o parentesco de um indivíduo com ele mesmo e os elementos fora da diagonal mostram o número de alelos compartilhados por parentes. A correlação de Wright entre parentes pode ser obtida dividindo esses elementos fora da diagonal pelo produto das raízes quadradas dos respectivos elementos da diagonal. Por outro lado, a diagonal da matriz Z’Z mostra quantos indivíduos herdaram cada alelo e elementos fora da diagonal indicam

quantas vezes dois alelos diferentes foram herdados pelo mesmo indivíduo. Usando métodos genômicos, o conceito de endogamia em um loco neutral não é mais válido, pois são consideradas medidas de parentesco nos locos do próprio caráter sob seleção. As medidas tradicionais de endogamia baseadas em pedigree resultam em perda de diversidade muito mais variáveis.

A predição de valores genéticos genômicos via BLUP pode ser computada via três métodos equivalentes (VAN RADEN, 2008): Via RR-BLUP, conforme especificado acima, em que:

) ˆ ( ' ) ' ( ˆ ˆ Zm Z Z R 1Z I 1Z R 1 y Xb g = = − + λ − − − , visto que ) ˆ ( ' ) ' ( ˆ Z R 1Z I 1Z R 1 y Xb

m= − + λ − − − . R é uma matriz diagonal de pesos para ponderar y com diferentes confiabilidades. Com confiabilidades altas e homogêneas (maiores que 0,85), pode-se considerar R = I e o sistema simplifica para

) ˆ (' ) ' ( ˆ Z Z I 1Z y Xb m= + λ − − .

Via BLP ou índice de seleção (com A genômica e estimado via quadrados mínimos generalizados, o que é garantido quando y contem valores genéticos desregressados), em que:

) ˆ ( ] ) / ( [ ˆ A A R 2 2 1 y Xb g = + σe σg − − .

(23)

Se necessário os efeitos dos marcadores podem ser obtidos por ) ˆ ( ] ) / ( [ } ] ) 1 ( 2 [ /' { ˆ Z p p A R 2 2 1 y Xb m e g n i i i − + − =

σ σ.

Via BLUP Modelo Equivalente, em que: ) ˆ ( ] ) / ( [ ˆ R 1 A 1 2 2 1R 1 y Xb g = −+ − σe σg − − −

Para implementação do procedimento RR-BLUP/GWS são necessários: X, Z, y e 2 / 2 2 /( 2/n) g e i g e σ σ σ σ λ = = . O vetor y

refere-se a fenótipos corrigidos; a matriz Z refere-refere-se à contagem de doses dos marcadores moleculares; X é um vetor conhecido composto de valores 1; λdepende de componentes de variância (herdabilidade ou confiabilidade da seleção) e do número de segmentos cromossômicos. A seguir são descritos cada um desses elementos, os quais são tratados em Meuwissen et al. (2001), Resende (2008), Garrick et al. (2009), Gianola et al. (2009), Goddard (2009) e Hayes et al. (2009).

Fenótipos corrigidos

Os fenótipos devem ser corrigidos visando eliminar os efeitos dos genitores e desregressar os valores genéticos. Esses devem ser desregressados por três motivos: (i) não pode haver duas regressões: uma baseada em pedigree e outra baseada em

marcadores; (ii) a matriz A baseada em pedgree é menos precisa que a ZZ´ baseada em marcas; (iii) influência de genes de grande efeito presentes em um dos genitores.

Adicionalmente, devem ser corrigidos para os efeitos genéticos dos genitores, trabalhando-se basicamente com o efeito da “segregação mendeliana desregressada”, já que o dado ideal para a população de treinamento deve ser o “mérito genético verdadeiro de indivíduos não aparentados”. E o efeito da

segregação mendeliana proporciona isso: análise da associação de alelos de marcas e de QTLs, ou seja, desequilíbrio de ligação (LD) livre de genealogia. As ferramentas genômicas propiciam

(24)

uma inspeção direta da segregação mendeliana ao nível do cromossomo.

Outra forma explícita de se fazer isso, parcialmente, é a consideração do pedigree via ajuste de g*, o vetor de efeitos poligênicos. Sem a correção mencionada acima ou o ajuste de g*, os marcadores podem estar capturando apenas o parentesco entre os indivíduos e não necessariamente o desequilíbrio de ligação com os genes propriamente ditos. Nesse caso, a acurácia da validação em uma amostra independente (indivíduos de outras famílias) da população e, também, em indivíduos de outras gerações poderá ser baixa, ao contrário do que teria sido predito em uma validação em amostra dependente.

O procedimento de obtenção dos valores fenotípicos desregressados e corrigidos para os efeitos genéticos dos genitores envolve os seguintes passos:

(i) Definição do sistema de equações associado à predição do

valor genético de um indivíduo i (i) e do valor genético médio

de seus genitores j e k (gˆgm =(gˆj+gˆ k)/2):       =             + − − + i m g i m g i i m g m g y y g g Z Z Z Z ˆ ˆ 2 2 2 4 * ' * * * ' λ λ λ λ , onde: 2 2 *=(1h )/h

λ , em que h2 é a herdabilidade ao nível de

indivíduo.

m g m g Z

Z' : conteúdo de informação associado à média dos

genitores.

i iZ

Z' : conteúdo de informação associado ao indivíduo (mais

informações de seus descendentes ou clones).

i m g e y

y : informação fenotípica corrigida para os efeitos fixos associada à média dos genitores e ao indivíduo, respectivamente.

(25)

(ii) Obtenção da quantidade desconhecida Zgm' Zgm : 2 / 1 2 * * ' =λ (0.5α4)+0.5λ (α +16/δ) m g m g Z Z , em que: ) 5 . 0 ( / 1 2 m g r − = α ) 1 ( / ) 5 . 0 ( 2 2 i m g r r − − = δ 4 / ) ( 2 2 2 k g j g m g r r

r = + : confiabilidade associada ao valor genético médio predito dos genitores j e k.

2

i

r : confiabilidade associada ao valor genético predito do indivíduo.

(iii) Obtenção da quantidade desconhecida Zi'Zi:

) 1 2 ( 2 * ' ' =δ + λ δ m g m g i iZ Z Z Z

(iv) Obtenção da quantidade desconhecida yi:

Resolução para yi, do sistema       =             + − − + i m g i m g i i m g m g y y g g Z Z Z Z ˆ ˆ 2 2 2 4 * ' * * * ' λ λ λ λ .

Assim, yi =(2λ*)gˆgm+(Zi'Zi+2λ*)gˆi, o qual representa a informação do indivíduo, agora corrigida para o valor genético médio de seus genitores.

(v) Obtenção do valor genético desregressadoˆ*

i g : ) ( / ˆ* ' i i i i y Z Z g = .

Assim, para obtenção de ˆ*

i

g , necessita-se da herdabilidade h2,

das confiabilidades (quadrado da acurácia) das avaliações dos três indivíduos ( 2 j g r , 2 k g r e 2 i

r ) e dos efeitos genéticos preditos dos três indivíduos (i,je k).

(26)

Considere um caráter com h2 de 0,20 e a avaliação genética de

três indivíduos onde foram obtidos os seguintes resultados: i= 18,j=13 e k= 5; 2 i r = 0,70; 2 j g r = 0,90 e 2 k g r = 0,80. Assim, são obtidos: 5 2 4 , 0 4 / ) 0 8 , 0 0 9 , 0 ( 4 / ) ( 2 2 2 = + = + = k g j g m g r r r ; 9 2 / ) 5 3 1 ( 2 / ) ˆ ˆ ( ˆgm = gj+gk = + = g ; 4 2 , 0 / 8 , 0 / ) 1 ( 2 2 *= h h = = λ ; 3 3 3 3 , 3 1 ) 5 2 4 , 0 5 , 0 ( / 1 ) 5 , 0 ( / 1 2 = = = rgm α ; 5 2 , 0 ) 0 7 , 0 1 ( / ) 5 2 4 , 0 5 , 0 ( ) 1 /( ) 5 , 0 ( 2 2 = = = rgm ri δ .

Com base nesses valores e seguindo o passo (ii), calcula-se

m g m g Z Z' : 5 6 7 , 1 4 ) 5 2 , 0 / 6 1 3 3 3 3 , 3 1 ( 4 5 , 0 ) 4 3 3 3 3 , 3 1 5 , 0 ( 4 ) / 6 1 ( 5 , 0 ) 4 5 , 0 ( * 2 1/2 2 1/2 * ' =λ α + λ α + δ = + + = m g m g Z Z

A seguir calcula-se o Zi'Zi seguindo o passo (iii):

2 1 4 4 , 6 ) 1 5 2 , 0 2 ( 4 2 5 6 7 , 1 4 5 2 , 0 ) 1 2 ( 2 * ' ' =δ + λ δ = + = m g m g i iZ Z Z Z .

Computa-se agora, seguindo o passo (iv), a quantidade

3 2 4 9 , 7 8 1 8 1 ) 4 2 2 1 4 4 , 6 ( 9 ) 4 2 ( ˆ ) 2 ( ˆ ) 2 ( * + ' + * = + + = = gm i i i i g Z Z g y λ λ

E finalmente calcula-se o valor corrigido e desregressado, seguindo o passo (v): 0 8 7 1 , 9 2 2 1 4 4 , 6 / 3 2 4 9 , 7 8 1 ) ( / ˆ* = ' = = i i i i y Z Z g

Esse é o valor do indivíduo a ser usado na análise genômica integrando o vetor y. Tal quantidade é equivalente a

* 2

* (ˆ )/

ˆi gi gm ri

g = − , ou seja, ao valor genético individual corrigido

para a média de seus genitores e desregressado pela quantidade 9 6 1 6 , 0 ) 4 2 1 4 4 , 6 ( / 4 1 ) ( / 1 * ' * * * 2 = λ +λ = + = i i i Z Z r .

(27)

Em caso de testes de progênie em uma só geração, o valor individual corrigido para o valor genético médio de seus genitores e desregressado são dados pela expressão

) ˆ 5 , 0 ˆ 5 , 0 ˆ ˆ ( ˆ* k j i y Xb Wc g g g = − − − − , em que e são os

efeitos estimados de blocos e de parcelas. Apenas desregressar por 2

i

r captura LD e parentesco. Seria necessário ajustar o efeito poligênico para remover a estruturação devida ao parentesco. Regressar por 2*

i

r e corrigir para efeito dos genitores captura apenas LD, eliminando a correlação intraclasse entre os valores genéticos preditos. Por esse motivo, o valor genético genômico dos indivíduos na população de validação (visando ao cômputo da acurácia) são dados por u gˆ u Zmˆ*

i = +

+ . Não se deve somar gm. Por outro lado, na população de estimação, visando à seleção, deve-se computar ou fazer a predição de m usando os valores genéticos desregressados, mas não corrigidos para os efeitos dos genitores e usar diretamente u+gˆi =u+Zmˆ . Na população de seleção propriamente dita (onde apenas os genótipos dos marcadores estão disponíveis), a seleção precoce deve basear-se diretamente em u+gˆi =u+Zmˆ , mas a acurácia da seleção é calculada com base em u gˆ u Zmˆ*

i = +

+ , em que mˆ* é o vetor

de efeitos preditos dos marcadores, obtido via ˆ*

i

g .

Frequências alélicas, variância dos

marcadores e herdabilidade

Marcadores codominantes (SNP) – Modelo genotípico

Variâncias e padronizações

Nesse caso, a matriz de incidência Z contém os valores 0, 1 e 2 para o número de alelos do marcador (ou do suposto QTL) em um indivíduo diplóide.

Com marcadores codominantes, a média e variância da variável Z associada à matriz de incidência são dadas por:

* ˆ ˆ ˆ u g Zm g u+ i = + gm+

(28)

Média da variável Z = 0 x p2 + 1 x 2p(1-p) + 2 x (1-p)2 = 2p

Variância da variável Z = Var (Z) = Var (Zi) = (0 – 2p)2 x p2 +

(1 – 2p)2 x 2p(1-p) + (2 - 2p)2 x (1-p)2= 2p(1-p)

Verifica-se que a variância da variável Z equivale ao grau de heterozigose ou frequência de heterozigotos na população. A raiz quadrada dessa variância pode ser usada para padronizar os dados dos marcadores na matriz Z, da seguinte forma para cada elemento Zi da matriz, referente ao loco i:

Zi = 0 se o indivíduo é homozigoto para o primeiro alelo (mm); Zi = 1/(Var(Zi))1/2 se o indivíduo é heterozigoto (Mm);

Zi = 2/(Var(Zi))1/2 se o indivíduo é homozigoto para o segundo

alelo no loco marcador (MM);

Zi = 2pi /(Var(Zi))1/2 se o genótipo do marcador é um dado

perdido, em que 2pi vem do valor esperado E(Zi = 2 ou Zi = 1) = 2 x pi2 + 1 x 2p

i(1-pi) = 2pi.

A quantidade pi é a frequência do segundo alelo do marcador. Dessa forma, a variância de Z com Zi ajustado é igual a 1. Alternativamente, os numeradores de Zi podem ser subtraídos pela média de Z (via 0-2p, 1-2p e 2-2p, respectivamente) obtendo-se uma variável com média zero e variância unitária. Sendo m o efeito do marcador na população, a variância devida ao marcador é dada por Var(Zim) = Var(Zi) Var(m). Com a transformação acima, Var(Zi) = 1 e portanto, Var(Zim) = Var(m). Em outras palavras, modelando a variância do efeito do marcador, modela-se diretamente a variância do marcador, independentemente de sua frequência. Mas, a padronização não é estritamente necessária.

(29)

Relação entre variância genética e variância dos marcadores

A relação entre variância genética aditiva e variância dos efeitos dos marcadores é essencial na predição genômica. Do exposto acima, segue que Var(gi) = Var(Zim) = Var(Zi) Var(m) = 2pi (1-pi) Var(mi) = 2pi(1-pi) mi2 equivale à variância genética devida ao

loco i. Para vários locos, a variância genética aditiva total é dada

por =

n

i i i i

g2 2p(1 p )m2

σ , a qual pode ser expressa também

por

= n i i i g2 U V σ , em que Ui =2pi(1− pi)e V =i mi2

A covariância entre U e V, denominada CUV é dada por ) / ) ( ) / ( / ) (

= n i n i i i n i i i V U U V n U n V n C .

Rearranjando essa expressão tem-se ) / ) ( ) (

= + n i n i i i n i i i UV n V U C n V U , de forma que

= + − = n i i n i i i n i i i UV g2 U V nC [ 2p (1 p )]( m2)/n σ . Sendo ( 2)/ 2 m n i i n m

, tem-se V U n i i i m g2 =[2

p (1− p )σ2 ]+nC σ .

Assim, a variância entre marcadores ( 2

m

σ ) obtida por REML, as frequências alélicas e os efeitos dos marcadores preditos por BLUP podem ser usados na obtenção da variância genética aditiva total. Desse modo, a variância genética entre marcas, estimada pelo software Selegen Genômica-REML/BLUP/GWS, deve ser multiplicada pelo número de marcas e por 2p(1-p) e também acrescida de nCUV, para cômputo da variância genética aditiva total.

Em alguns casos, CUV assume o valor zero (quando a média dos m equivale a zero) ou muito baixo. Em outros casos, a

(30)

quantidade 2 i m é substituída por 2 m σ , pois a esperança de 2 i m é

a variância do efeito do marcador, ou seja, ( 2) 2

m i

m

E =σ . Assim, muitas das aplicações usam 2 =[2

n (1 ) 2 ]

i i i m

g p p σ

σ e a

variância entre marcadores dada por ] ) 1 ( 2 [ / ) ( 2 2 =

n i i i V U g m σ nC p p σ é simplificada para ] ) 1 ( 2 [ / 2 2 =

n i i i g m σ p p

σ . Um exemplo completo é apresentado

no tópico Exemplo Aplicado no Melhoramento do Eucalipto.

Matriz de parentesco genômico

Sem padronização prévia dos elementos de Z, tem-se ] ) 1 ( 2 [ / ) ' ( * *

= n i pi pi Z Z A

em que pi é a frequência de um dos alelos do loco i e Z*= ZP onde P é uma matriz com elementos 2pi na coluna i. Com

padronização prévia dos elementos de Z e centrando a média em zero tem-se A =ZZ'.

Marcadores dominantes (DArT) - Modelo genotípico

Variâncias e padronizações

Nesse caso, a matriz de incidência Z contém os valores 0 ou 1 para ausência ou presença de um dos alelos do marcador (ou do suposto QTL) em um indivíduo diplóide.

Com marcadores dominantes, a média e variância da variável Z associada à matriz de incidência são dadas por:

Média da variável Z: 1 x p + 0 x (1-p) = p, em que p é a frequência do código 1, que contempla MM e Mm de forma confundida.

Var (Z) = Var (Zi) = Variância da variável Z: (1 – p)2 x p + (0 –

(31)

Assim, a variável Z tem distribuição Bernoulli com média p e variância p(1-p). A raiz quadrada dessa variância pode ser usada para padronizar os dados dos marcadores na matriz Z, da seguinte forma:

Zi = 0 se a banda é ausente no indivíduo.

Zi = 1/(Var(Zi))1/2 se a banda está presente no indivíduo.

Zi = pi /(Var(Zi))1/2 se o genótipo do marcador é um dado perdido.

A quantidade pi é a frequência do código 1.

Relação entre variância genética e variância dos marcadores

No caso de marcadores dominantes, tem-se que Var(gi) = Var(Zim) = Var(Zi) Var(m) = pi(1-pi) Var(mi) = pi(1-pi) mi2, que

equivale à variância genética devida ao loco i. Para vários locos ] ) 1 ( [ 2 2 =

n i i i i g p p m σ .

Expressa diretamente em função da variância dos efeitos dos marcadores ( 2 m σ ) tem-se que n UV i i i m g2 =[

p (1− p )σ2 ]+nC σ .

Ignorando nCUV , tem-se que ] ) 1 ( [ / 2 2 =

n i i i g m σ p p σ .

A quantidade CUV é dada por

) / ) ( ) / ( / ) (

= n i n i i i n i i i V U U V n U n V n C ,

em que Ui = pi(1− pi)e V =i mi2. Assim, a variância entre

marcadores ( 2

m

σ ) obtida por REML, as frequências alélicas e os efeitos dos marcadores preditos por BLUP podem ser usados na obtenção da variância genética aditiva total. Assim, a variância genética entre marcas, estimada por REML, deve ser multiplicada pelo número de marcas e por p(1-p) e também acrescida de nCUV, para cômputo da variância genética aditiva total. Isso

(32)

pode ser feito por meio do software Selegen Genômica RR-BLUP, conforme apresentado no tópico Exemplo Aplicado ao Melhoramento do Eucalipto.

Matriz de parentesco genômico

Sem padronização prévia dos elementos de Z, tem-se ] ) 1 ( [ / ) ' ( * *

= n i i i p p Z Z A

em que pi é a frequência associada à presença de marca no loco i e Z*=ZPonde P é uma matriz com elementos p

i na coluna

i. Com padronização prévia dos elementos de Z e centrando a média em zero tem-se A =ZZ'.

Marcadores codominantes (SNP) – Modelo gamético

ou alélico

Nesse caso, a matriz de incidência Z contém os valores 0 ou 1 para ausência ou presença de um dos alelos do marcador em uma célula haplóide.

A média e variância da variável Z associada à matriz de incidência são dadas por:

Média da variável Z = 1 x p + 0 x (1-p) = p, em que p é a frequência do código 1, que contempla M.

Variância da variável Z = Var (Z) = Var (Zi) = (1 – p)2 x p + (0

– p)2 x (1-p) = p(1-p)

Assim, a variável Z tem distribuição Bernoulli com média p e variância p(1-p).

Relação entre variância genética e variância dos marcadores

Do exposto anteriormente e computando o efeito do alelo duas vezes para se ter o g de um indivíduo diplóide, segue que Var(gi)

(33)

= 2Var(Zi2m) = 2 Var(Zi) Var(2m) = 2[pi(1-pi)] Var(2mi) = [2pi(1-pi)] 4 mi2 equivale à variância genética devida ao loco i.

Para vários locos 2 =4[2

n (1 ) 2 ]

i i i i

g p p m

σ .

Expressa diretamente em função da variância dos efeitos dos marcadores ( 2 m σ ), tem-se que 2 =4[2

n (1 ) 2 ] i i i m g p p σ σ Portanto, 2 2/{4[2 p (1 p )]} 2/(4nH) g n i i i g m σ σ σ =

− = , em que =(1/ )[ 2

(1− )] n i i i p p n

H é a heterozigose média dos

marcadores. Com freqüência alélica p = 0.5 em todos os locos marcadores, tem-se que 2 2/(2n)

g m σ

σ = . Sob modelo gamético, a quantidade 2n advém do fato que cada marcador afeta o fenótipo duas vezes, via alelo de origem paterna e materna.

Matriz de parentesco genômico

Sem padronização prévia dos elementos de Z, tem-se ] ) 1 ( [ / ) ' ( * *

= n i i i p p Z Z A

em que pi é a frequência de um dos alelos do loco i e Z*= ZP onde P é uma matriz com elementos pi na coluna i. Com

padronização prévia dos elementos de Z e centrando a média em zero tem-se A =ZZ'.

Herdabilidade

A variância genética e a herdabilidade (h2) podem ser

computadas via dados fenotípicos ou via dados de marcadores e fenotípicos conforme descrito anteriormente no cômputo de

2

g

σ . A h2 a ser usada no RR-BLUP deve ser a herdabilidade

ajustada ou dos dados corrigidos ( 2 2 / 2

j a y g j a h =σ σ ), em que 2 j a y

σ é a variância fenotípica ajustada. Se y é corrigido para a média dos genitores o numerador de 2

j a

h deve conter apenas a variância genética devida à segregação mendeliana, ou seja,

2 2 * 2 (1/2) / j a y g j a h = σ σ ou 2* (3/4) 2/ 2 j a y g j a h = σ σ quando se conhece

(34)

os dois genitores (famílias de irmãos germanos) ou apenas um dos genitores (famílias de meios irmãos), respectivamente. Essas herdabilidades podem ser expressas também em função da herdabilidade individual h2, por meio das expressões

) ) 1 ( 2 / 1 ( / ) 2 / 1 ( 2 2 2 * 2 h h h

haj = + − para progênies de irmãos

germanos e h2* (3/4 h2)/(3/4 h2 (1 h2))

j

a = + − para progênies de

meios-irmãos. Essas fórmulas mostram que o denominador de *

2

j a

h

também contempla apenas a variância genética devida à segregação mendeliana e não a variância genética total. Outra forma de expressar 2*

j a

h

é usar diretamente a confiabilidade 2*

i

r , apresentada no quarto tópico. Para cômputo do RR-BLUP e da acurácia da GWS, 2*

j a

h

pode ser tomada como a média dos 2*

i

r dos indivíduos em análise.

Número de marcadores com efeitos

significativos

Na predição RR-BLUP/GWS, necessita-se da quantidade ) / ( / / 2 2 2 2 n g e i g e σ σ σ σ

λ= = , em que n é o número de locos

controlando o caráter (assumindo que cada loco está perfeitamente marcado), o qual é desconhecido a priori. A variância genética contribuída por cada loco é dada por

2 2 2 (1 ) i i i i g = pp a

σ em que pi é a frequência de um dos alelos do loco i e ai é o efeito de substituição alélica (FALCONER, 1989). A variância genética total do caráter é dada pelo somatório das variâncias nos locos individuais, ou seja,

] ) 1 ( 2 [ 2 2 =

n i i i i g p p a

σ em que o somatório estende para todos

os n locos. Com variâncias de magnitudes iguais em todos os locos, tem-se 2 2

i g g

σ = . Conforme tópico anterior, na GWS, 2

i g

σ

é dada aproximadamente por 2 = 2/[2

n (1 )]

i i i

g i

g σ p p

σ

em que o somatório estende para todos os n locos marcadores codominantes e pi refere-se à frequência de um dos alelos de cada loco marcador, considerando todos os locos marcadores

(35)

ajustados no modelo. A quantidade V(Zi)=2pi(1pi)é a variância da variável de incidência Z no loco marcador i. Assim, na expressão 2 / 2 2 /( 2/n) g e i g e σ σ σ σ λ= = , n pode ser tomado como [2

n (1)] i i i p

p . Alternativamente, λ pode ser expresso como 2 / 2 2 /( 2/n) (1 h2)/(h2/n) g e i g e = = − =σ σ σ σ λ e, portanto =(1 2)/( 2/ )=(1 2)/{( 2/[2

n (1 )]} i i i p p h h n h h λ .

Expresso de outra forma,

2 2 2 2)/ [2 (1 )](1 )/ 1 ( h h p p h h n n i i i − − = − =

λ

Assim, de posse de h2 e das frequências alélicas nos locos

marcadores, obtém-se λpara uso nas equações de modelo misto. É importante notar que h2 refere-se à herdabilidade ajustada ou,

em alguns casos, à confiabilidade ( 2 ˆ g

g

r ) da predição.

Recomenda-se então analisar inicialmente todo o conjunto de marcadores codominantes em todos os indivíduos fenotipados (população de estimação completa), usando n como o número total de marcadores ponderados por V(Zi)=2pi(1pi ) ou simplesmente usar n como o número total de marcadores. Esse procedimento visa identificar os marcadores com maiores efeitos em módulo, objetivando rodar análises com subgrupos menores de marcadores e determinar quantos e quais

marcadores maximizam a acurácia seletiva. O número ótimo de marcadores é um compromisso entre maior informatividade (maior acurácia, pela maior captura de genes) e menor

precisão (menor acurácia, pelo menor tamanho amostral por efeito estimado) com o aumento do número de marcadores. Posteriormente, a validação deve ser realizada usando apenas a fração de marcadores que maximiza a acurácia, usando n como o somatório [2

n (1)]

i i i

p

p nesse subconjunto de marcadores. Esse procedimento é recomendável, pois tende a produzir

(36)

acurácia mais alta, similar à obtida pelo método Bayes B. Dessa forma, ambos os métodos assumem que muitos dos marcadores apresentam efeitos zero. Isto o faz também o método do

aprendizado de máquina (AM).

Outra abordagem para inferir sobre n é usar o seu valor esperado, dado o tamanho efetivo (Ne) da população e o

tamanho L do genoma da espécie. Com base no tamanho efetivo populacional (Ne), pode-se calcular o número efetivo de locos ou segmentos cromossômicos (Me) devidos à ligação (segundo esse conceito, para dois gametas quaisquer, o genoma é quebrado em Me segmentos de tamanho igual). Nesse caso, n é dado por n = Me V(q) = Me k, sendo V(q) a heterozigose média de todos os segmentos cromossômicos independentes, ou seja, V(q) = 2p(1-p), em que p é a frequência alélica média. V(q) é análogo a V(Zi), sendo que q refere-se aos locos gênicos e Z refere-se aos locos marcadores.

Segundo Goddard (2008), e conforme apresentado por Resende (2008), a quantidade Me é dada por Me = (2NeL)/[Ln(4NeL)], em que L é o tamanho total do genoma em Morgans. Entretanto, Hayes et al. (2009) relatam que o valor mais apropriado para Me situa-se entre 4NeL e (2NeL)/[Ln(4NeL)], sendo uma boa aproximação usar Me = 2NeL, ou seja, assumir o número efetivo de locos como 2NeL. Esse número efetivo de locos deve ser ponderado por uma função da frequência alélica do gene (via frequência do marcador), que está implícita em V(q). O valor de n é dado então por n = Me V(q) = Me k, em que V(q) = k é dado por k = 1/[Ln(2Ne)]. Dessa forma, n = 2NeL 1/[Ln(2Ne)]. A quantidade Me V(q) refere-se ao número esperado de marcas com efeitos significativos. Isso é confirmado pelos resultados práticos com eucalipto, associado ao Ne = 100 e L = 13,2 na Tabela 2, em que consta n = 502, o qual é coerente com o número de marcadores (500 a 750) que maximiza a acurácia com a GWS.

(37)

Para a predição BLUP, as alternativas que podem ser adotadas visando inferir sobre n são:

(i) Ajustar os efeitos de cada SNP individualmente, avaliando suas significâncias e, posteriormente, ajustar simultaneamente todos os SNPs (locos) com efeitos significativos, usando n como o número de SNPs significativos. Idealmente, esse n deve ser ponderado por uma função da frequência alélica do marcador. (ii) Computar n via n = Me V(q) = Me k.

(iii) Usar todos os marcadores, sem teste de significância e, computando =[2

n (1)]

i i i

p p

n .

Geralmente o número de SNPs significativos é maior do que o número de locos pois cada SNP rastreia um grande segmento cromossômico e então o efeito de cada segmento cromossômico é dividido em muitos SNPs. Em gado de leite, o número de SNPs com efeitos significativos variou de 3 mil a 4 mil entre caracteres, dentre cerca de 40 mil marcadores usados (HAYES et al., 2009).

A melhor opção é adotar a estratégia (iii) seguida de escolha de subconjuntos menores de marcadores, com base no

módulo dos maiores efeitos de todos os marcadores estimados inicialmente. Esse ponto distingue a GWS da GWAS (Genome Wide Association Studies), a qual procura associação entre locos e caráter fenotípico em nível populacional, por meio de testes de hipóteses, visando detectar efeitos com significância estatística. A GWAS sofre com a alta taxa de falsos negativos devido ao uso de pontos de corte muito rigorosos, visando evitar a ocorrência de falsos positivos. A GWS equivale à GWAS tradicional aplicada sobre todos os locos simultaneamente e baseando-se em

estimação e predição em vez de teste de hipótese. Dessa forma, consegue explicar parte muito maior da variabilidade genética e evitar a chamada herdabilidade faltante ou perdida (missing

(38)

heritability, conforme Maher (2008)), típica dos estudos de análise de ligação e de associação.

O número máximo de SNPs com efeitos significativos é limitado pelo Ne. Com Ne mais baixo, menor é n. O número real de segmentos cromossômicos total é 4NeL, ou seja, 120 mil em bovinos, que é bem maior que o número efetivo de segmentos. Em eucalipto (genoma com 13,2 Morgans), tem-se a Tabela 2. O valor de n computado via n = Me V(q) = Me k, pode ser usado em estudos de simulação da acurácia seletiva, visando inferir sobre o número de locos ou segmentos a compartilhar a variância genética total. Esse número, em uma população de cruzamentos ao acaso, depende apenas do Ne e do tamanho total do genoma da espécie. Na Tabela 2 são apresentados valores de n para bovinos (genoma com L = 30 Morgans) e eucalipto (genoma com L = 13,2 Morgans), para diferentes valores de Ne.

Referências

Documentos relacionados

As penas restritivas de direitos da pessoa jurídica são: I - ​suspensão parcial ou total de atividades (...)”. 7) ​PCPE​: A suspensão parcial ou total de

O objetivo do curso foi oportunizar aos participantes, um contato direto com as plantas nativas do Cerrado para identificação de espécies com potencial

O valor da reputação dos pseudônimos é igual a 0,8 devido aos fal- sos positivos do mecanismo auxiliar, que acabam por fazer com que a reputação mesmo dos usuários que enviam

80 CMF DR GRADISTEANU CORNELIA GRADISTEANU CORNELIA RUJA BAIA MARE str Petru Rares nr.23A 262220791 gradisteanucornelia@yahoo.com 81 CMF DR GRIGOR DALIDA GRIGOR DALIDA BOCICOIU MARE

Além disto, é conhecido que a correção da hipocalemia diminui a pressão arterial em ratos com hipertensão induzida por mineralocorticóide, o mes- mo sendo relatado em pacientes

• tomada de decisão: relatórios podem ser gerados a cada interação informando de condições diversas relativas ao desenvolvimento, desta forma decisões podem

Na sua apresentação, o V Alte Monteiro Dias falou sobre a modernização do Centro de Comando e Controle do 2º Distrito Naval, para ser utilizado durante os torneios; o

Os problemas encontrados nestes municípios foram: os agricultores mostravam pouco conhecimento sobre as políticas públicas de comercialização, tendo informações