• Nenhum resultado encontrado

Comparação de modelos de predição genômica

3 CAPÍTULO II – PREDIÇÃO DE VALORES GENÉTICOS

3.2.7 Comparação de modelos de predição genômica

A correlação de Pearson (r) entre DGV e as variáveis de resposta (dEBV ou EBV) de animais dos subgrupos da população de validação ([ryi,DGV]) foram utilizadas como uma estimativa da acurácia de predição. Os coeficientes de regressão (b̂) das variáveis de resposta sobre o DGV para cada animal dos subgrupos da população de validação (𝑏̂yi,DGV) foram obtidos para verificar se as predições genômicas foram viesadas; estimativas de b̂<1 sugerem a inflação dos DGV e b̂>1 a deflação desses (WIMMER et al., 2012). O último critério de

comparação foi o quadrado médio do erro de predição (MSE, do inglês Mean Squared Error), MSE = ∑ DGVn1 i-ŷ / (n), em que n é o tamanho do conjunto de dados da população de i validação. O MSE foi utilizado como medida de verificação do ajuste do modelo aos dados, sendo que, quanto menor o MSE melhor é o ajuste do modelo.

3.3. Resultados

Os coeficientes de correlação de Pearson (ryi,DGV) entre as variáveis resposta (EBV e dEBV) e os DGV foram utilizados como medida para avaliar a acurácia de predição dos modelos genômicos. Cada característica foi analisada individualmente utilizando a metodologia de validação cruzada (k = 5 e r = 5). Independentemente da definição da variável de resposta, o método GBLUP forneceu estimativa de DGV igual ou superior aos métodos genômicos Bayes Cπ e Bayes Lasso para todas as características (Tabela 2). No entanto, quando o método GBLUP foi superior, sua diferença para os métodos Bayes Cπ e Bayes Lasso foi muito sutil, não sendo maior que 0,01, de modo que os três métodos conseguiram predizer de forma similar a acurácia para todas as características leiteiras.

Tabela 2. Acurácias de predição medidas pela correlação Pearson entre a variável de resposta (EBV ou dEBV) e o DGV das características de produção, composição e contagem de células somáticas de leite caprino da raça Saanen baseado em três diferentes modelos de predição: GBLUP, Bayes Cπ, Bayes Lasso

Característica h2 Resposta r(yi,DGV) ± SD

GBLUP BayesCπ BayesLasso DLAC (dias) 0,05 dEBV EBV 0,63±0,05 0,50±0,05 0,62±0,05 0,50±0,05 0,62±0,05 0,50±0,05 PL305 (kg) 0,18 dEBV EBV 0,67±0,05 0,50±0,05 0,66±0,05 0,50±0,05 0,66±0,05 0,49±0,05 PLD305 (kg/dia) 0,19 EBV 0,68±0,05 0,68±0,05 0,68±0,05 dEBV 0,49±0,05 0,49±0,05 0,49±0,05 PG305 (kg) 0,15 EBV 0,69±0,05 0,69±0,05 0,69±0,05 dEBV 0,51±0,04 0,51±0,04 0,51±0,04 PP305 (kg) 0,15 dEBV EBV 0,72±0,04 0,51±0,04 0,72±0,04 0,51±0,04 0,72±0,04 0,51±0,04 PEX305 (kg) 0,14 dEBV EBV 0,71±0,04 0,50±0,05 0,71±0,04 0,50±0,05 0,70±0,04 0,50±0,05 PLAC305 (kg) 0,12 dEBV EBV 0,71±0,04 0,49±0,04 0,70±0,04 0,49±0,05 0,70±0,04 0,49±0,04 CCS305 (cel/ml) 0,06 dEBV EBV 0,63±0,04 0,49±0,05 0,62±0,04 0,49±0,05 0,62±0,04 0,49±0,05

EBV – valores genéticos estimados (do inglês, estimated breeding values; dEBV – valores genéticos deregregidos (do inglês, deregressed estimated breeding values); DGV – valores genômicos diretos (do inglês,

direct genomic values); DLAC – duração da lactação; PL305 – produção total de leite na lactação até 305 dias de lactação; PLD305 – produção média diária de leite até 305 dias de lactação; PG305 – produção total de gordura na lactação até 305 dias de lactação; PP305 – produção total de proteína na lactação até 305 dias de lactação; PEX305 – produção total de extrato seco na lactação até 305 dias de lactação; PLAC305 – produção total de lactose na lactação até 305 dias de lactação; CCS305 – contagem de células somáticas na lactação até 305 dias de lactação

As médias das acurácias de predição, de todas as características, quando os EBV foram utilizados como variável de resposta, foram 0,68, 0,68 e 0,67 para GBLUP, Bayes Cπ e BLASSO, respectivamente. Quando a variável de resposta foram os dEBV, as médias das acurácias de predição foram 0,50 para todos os modelos. Entre as características, as acurácias de predição apresentaram variação substancial quando os EBV foram utilizados como variável de resposta (Tabela 2), com valores que oscilaram de 0,62 (DLAC) a 0,72 (PP305). Para dEBV, a variação das acurácias de predição foram menores e oscilaram de 0,49 (PLD305) a 0,51 (PG305).

Para determinar se existiam diferenças estatísticas entre os modelos de predição genômica foram realizadas análises de variância para todas as características. Após a realização do teste de Tukey (α = 0,05), verificou-se que os coeficientes de correlação dos três modelos de predição não diferiram significativamente entre si; os valores estavam dentro do intervalo do desvio padrão dos modelos em todas as características analisadas (Figura 1).

Figura 1. Boxplot da acurácia de predição para variáveis de resposta (a) EBV e (b) dEBV para duração da lactação (DLAC), produção total de leite até 305 dias de lactação (PL305), produção média diária de leite até 305 dias de lactação (PLD305), produção total de gordura até 305 dias de lactação (PG305), produção total de proteína até 305 dias de lactação (PP305), produção total de extrato seco até 305 dias de lactação (PEX305), produção total de lactose até 305 dias de lactação (PLAC305) e contagem de células somáticas até 305 dias de lactação (CCS305), baseado em três diferentes modelos de predição: GBLUP, Bayes Cπ, Bayes Lasso. “NS” acima do boxplot indica que não houve diferença significativa (P<0,05) entre as acurácias de predição pelo teste de Tukey.

Os coeficientes de regressão das variáveis respostas (EBV ou dEBV) sobre os DGV (Tabela 3) foram usados para medir a extensão do viés de predição, uma vez que valores maiores ou menores que um estão relacionados a DGV deflacionados ou inflacionados, respectivamente. Em nosso estudo, os coeficientes de regressão (byi, DGV) foram ligeiramente superiores a um, o que indica que as predições genômicas foram deflacionadas. Em geral, GBLUP e Bayes Cπ foram menos viesados que o método BLASSO, ou seja, para a maioria das características, as previsões de DGV obtidas por BLASSO foram mais deflacionadas (Tabela 3).

Tabela 3. Coeficiente de regressão da variável de resposta (EBV ou dEBV) sobre o DGV e Quadrado Médio do Erro de Predição (MSE) das características de produção, composição e contagem de células somáticas de leite caprino da raça Saanen baseado em três diferentes modelos de predição: GBLUP, Bayes Cπ, Bayes Lasso

Característica Resposta Coeficiente de Regressão MSE

GBLUP BayesC BLASSO GBLUP BayesC BLASSO

DLAC (dias) EBVdEBV 1,061,05 1,051,05 1,051,07 38,894,34 39,504,35 39,764,35 PL305 (kg) EBVdEBV 1,101,05 1,101,05 1,081,11 3384,410,81 3421,070,81 3456,150,82 PLD305 (kg/dia) EBV dEBV 1,131,05 1,131,05 1,141,08 0,730,03 0,730,03 0,030,73 PG305 (kg) EBVdEBV 1,061,05 1,061,05 1,061,07 1,192,55 1,192,59 2,591,19 PP305 (kg) EBVdEBV 1,081,05 1,081,05 1,091,07 1,201,65 1,201,68 1,681,20 PEX305 (kg) EBVdEBV 1,081,05 1,071,05 1,071,08 20,941,17 21,271,18 21,471,18 PLAC305 (kg) EBVdEBV 1,091,05 1,091,05 1,091,08 1,312,41 1,312,45 2,451,31 CCS305 (cel/ml) EBVdEBV 1,041,06 1,041,06 1,051,09 2,460,00 2,460,00 0,002,46

EBV – valores genéticos estimados (do inglês, estimated breeding values; dEBV – valores genéticos deregregidos (do inglês, deregressed estimated breeding values); DGV – valores genômicos diretos (do inglês,

direct genomic values); DLAC – duração da lactação; PL305 – produção total de leite na lactação até 305 dias de lactação; PLD305 – produção média diária de leite até 305 dias de lactação; PG305 – produção total de gordura na lactação até 305 dias de lactação; PP305 – produção total de proteína na lactação até 305 dias de lactação; PEX305 – produção total de extrato seco na lactação até 305 dias de lactação; PLAC305 – produção total de lactose na lactação até 305 dias de lactação; CCS305 – contagem de células somáticas na lactação até 305 dias de lactação

Os maiores coeficientes de regressão foram verificados para PLD305 (1,14) e PL305 (1,11) utilizando o método BLASSO e o EBV como variável de resposta. Entre as variáveis de resposta, os coeficientes de regressão foram mais viesados para EBV do que para dEBV, com exceções para as características DLAC e CCS305 que apresentaram maiores coeficientes

de regressão com dEBV como variável resposta (Tabela 3). As médias dos coeficientes de regressão de EBV sobre DGV foram iguais a 1,08 para todos os modelos (GBLUP, Bayes Cπ e BLASSO), superiores aos obtidos para coeficiente de regressão de dEBV sobre DGV, que apresentaram valores 1,05, 1,05 e 1,08 para GBLUP, Bayes Cπ e BLASSO, respectivamente.

Para a maioria das características, o ajuste geral do modelo aos dados, avaliado pelo quadrado médio do erro de predição (MSE), favoreceu o método GBLUP sobre os métodos Bayes Cπ e BLASSO (Tabela 3). No entanto, na maioria dos casos, independente da variável resposta utilizada, as diferenças do MSE entre os modelos de predição foram sutis ou inexistentes. A exceção foi para a característica PL305 com EBV como variável resposta, que apresentou um MSE bem inferior no método GBLUP. Possivelmente a diferença de valores entre os modelos predição genômica esteja relacionada à maior escala da estimativa do MSE para característica PL305, que proporcionou uma maior discrepância de valores entre os diferentes modelos de predição.

3.4. Discussão

Três diferentes métodos de predição genômica (GBLUP, Bayes Cπ e BLASSO) foram utilizados neste estudo para estimar os DGV de oito características leiteiras em caprinos da raça Saanen. As distribuições a priori para os efeitos dos SNPs são a principal diferença entre os métodos, isto é, o GBLUP assume uma distribuição normal com média zero e variância comum para todos os marcadores, e não realiza a regularização e seleção de covariáveis (marcadores); o BLASSO assume uma distribuição dupla exponencial para o efeito dos SNPs com efeitos próximos de zero e variâncias individuais, produzindo um “encolhimento (shrinkage)” específico, de acordo com o efeito e a variância do marcador; e o Bayes Cπ assume uma distribuição mista, em que apenas uma parte dos SNPs tem efeito, e o número de marcadores com efeito zero é dado por uma probabilidade desconhecida (π). Apesar de cada método de predição ter suposições diferentes sobre a distribuição a priori dos efeitos dos SNPs, as diferenças entre as habilidades preditivas dos três modelos genômicos analisados foram mínimas, com ligeira superioridade para método GBLUP (Tabela 2).

Deve-se notar que, embora o GBLUP tenha apresentado acurácias de predição ligeiramente maiores para a maioria das características, essa superioridade não foi suficiente para que o método fosse estatisticamente melhor que os métodos bayesianos (Figura 1). No entanto, apesar dos diferentes modelos terem predito de forma similar às oito características, eles diferiam drasticamente no tempo computacional. Com o atual tamanho da população de

referência (940 animais), o tempo médio para análise de predição genômica utilizando o modelo GBLUP foi aproximadamente cinco vezes (5x) mais rápido que os demais modelos utilizados no estudo. Como os dois modelos bayesianos (LASSO e Bayes Cπ) utilizaram as técnicas de Monte Carlo via cadeias de Markov (MCMC) para estimar as distribuições a

posteriori, o tempo computacional foi consideravelmente maior que o GBLUP. Assim, sob

enfoque computacional, o modelo GBLUP é considerado o melhor para predição genômica desta população.

Os resultados encontrados neste estudo são diferentes dos reportados nos primeiros estudos sobre predição genômica, baseados em dados simulados, que apontavam a superioridade dos métodos bayesianos em relação ao método GBLUP (CLARK; HICKEY; VAN DER WERF, 2011; COSTER et al., 2010; DAETWYLER et al., 2010b; HABIER; FERNANDO; DEKKERS, 2007; MEUWISSEN; HAYES; GODDARD, 2001; OGUTU; SCHULZ-STREECK; PIEPHO, 2012; SOLBERG et al., 2008; USAI; GODDARD; HAYES, 2009). No entanto, os resultados aqui observados são similares aos estudos que também utilizaram dados reais, em que o método GBLUP tem apresentado resultados similares ou superiores aos métodos bayesianos (COLOMBANI et al., 2013; COSTA et al., 2019; FERNANDES JÚNIOR et al., 2016; HAYES et al., 2009; LUAN et al., 2009; MOSER et al., 2009; WANG et al., 2019).

De acordo com de los Campos et al. (2013), a similaridade entre os métodos bayesianos e GBLUP utilizando dados reais pode ser atribuída ao fato de haver grande número de parâmetros (P) a serem estimados a partir de um pequeno número (n) de amostras (P > n). Nesta situação, o número de informações é insuficiente para que o “aprendizado bayesiano” ocorra de modo completo (GIANOLA, 2013), o que torna mínima a influência da distribuição a priori. Dessa forma, embora os modelos bayesianos possam produzir inferências diferentes em relação ao efeito dos marcadores individuais, eles frequentemente resultam em capacidades preditivas similares.

Outro fator que poderia explicar a similaridade dos resultados entre os diferentes modelos de predição é a arquitetura genética das características analisadas. Estudos demonstraram que a arquitetura genética tem um forte impacto no desempenho preditivo dos modelos genômicos (CLARK; HICKEY; VAN DER WERF, 2011; COSTER et al., 2010; DAETWYLER et al., 2010b), ou seja, a acurácia tende a aumentar à medida que o modelo se ajusta à arquitetura genética da característica (LUND et al., 2009). Os métodos bayesianos tendem a apresentar acurácias mais elevadas e superiores ao GBLUP quando a característica é afetada por alguns QTL de grande efeito (NEVES et al., 2014) e a ser semelhante ao GBLUP

quando a característica é afetada por muitos QTL com pequenos efeitos (COSTER et al., 2010; DAETWYLER et al., 2010b; PÉREZ-CABAL et al., 2012). Assim, a similaridade entre os três modelos de predição genômica indica que o modelo infinitesimal é válido para todas as características analisadas neste estudo. Esses resultados poderão ser confirmados por análises em estudos de associação genômica ampla (GWAS), que permitirão detectar ou não SNPs significativos nos cromossomos do genoma caprino.

Em caprinos, estudos sobre seleção genômica ainda são limitados, porém seus impactos já foram avaliados na França e Reino Unido (CARILLIER et al., 2013; CARILLIER; LARROQUE; ROBERT-GRANIÉ, 2014; MUCHA et al., 2015). Na população caprina francesa, Carillier; Larroque; Robert-Granié (2014) avaliaram as raças Saanen e Alpina separadamente e combinadas em análises multirraciais e não encontraram diferenças significativas entre os diferentes modelos. Na análise individual para raça Saanen, utilizando o método GBLUP, os autores relataram uma capacidade de predição (correlação entre o DGV e desvio de produção das filhas – DYD, do inglês Daughter Yield Deviations) de 0,36, 0,62, 0,55 e 0,45 para a produção total de leite (kg), produção total de gordura (g/kg), produção total de proteína (g/kg) e contagem de células somáticas, respectivamente. Estes valores são menores que os reportados em nosso estudo quando EBV foram utilizados como variável resposta. Estimativas menores de acurácia de predição (valores variando de 0,36 a 0,61) também foram reportadas por Mucha et al. (2015) para a característica produção total de leite (kg), em uma população de 1.960 caprinos mestiços (Alpina, Saanen e Toggenburg) no Reino Unido, com o uso de quatro diferentes modelos de predição. Contudo, vale ressaltar que nesses dois estudos, as características não foram mensuradas até 305 dias, assim como ocorreu em nosso trabalho.

Entre as características, as acurácias da predição apresentaram diferenças relevantes quando EBV foi utilizado com variável resposta, com menores valores verificados para características de menor herdabilidade, DLAC e CCS305 (Tabela 3). Na literatura, a estimativa de herdabilidade é citada como um dos principais fatores que afetam a acurácia de predição. Características com maiores herdabilidades têm sido associadas a maiores acurácia de predição (DAETWYLER et al., 2010b; DE LOS CAMPOS et al., 2013). Neste estudo, a relação entre herdabilidade e acurácia de predição foi verificada apenas entre as características com estimativas de herdabilidade baixa. Para características com maiores herdabilidades essa relação não foi observada. De forma similar, quando a variável de resposta analisada foi dEBV, nenhuma relação entre acurácia de predição e herdabilidade foi identificada.

Para as variáveis resposta, as maiores acurácias de predição foram obtidas para EBV. Teoricamente, os dEBV deveriam ser mais informativos do que os EBV para a predição genômica (GARRICK; TAYLOR; FERNANDO, 2009; OSTERSEN et al., 2011). No entanto, na prática, tem havido relatos que demonstram uma inflação dos “ruídos”, que pode ser vista como uma medida associada à qualidade do processo de desregressão, e, portanto, menores acurácias têm sido reportadas nas predições genômicas baseadas nos dEBV (AGUILAR et al., 2010; LUND et al., 2011; SU et al., 2012). Neste estudo, as menores acurácias de predição para dEBV podem estar relacionadas ao número de animais genotipados que tinham pais desconhecidos na população de treinamento, 102 animais no total. Isso pode ter comprometido as estimativas e a confiabilidade do processo de deregressão. Deste modo, os resultados indicam que o uso dos EBV na predição genômica para características leiteiras desta população de caprinos Saanen é mais adequado do que o uso dos dEBV.

Os coeficientes de regressão, em geral, foram ligeiramente superiores a um, o que significa que as predições foram deflacionadas. Embora o estudo se concentre nas acurácias de predição genômica, dependendo do esquema de seleção, a magnitude do viés de predição deve ser avaliada com atenção, principalmente para determinar se os DGV podem ser comparados aos EBV tradicionais (NEVES et al., 2014). Quando as predições são deflacionadas, a seleção de animais genotipados será prejudicada, uma vez que ocorrerá uma subestimação artificial da tendência genética, o que levaria a uma redução indevida da DGV sobre o EBV tradicional. Em nosso estudo, os dEBV apresentaram resultados ligeiramente menos viesados. Contudo, a diferença do coeficiente de regressão entre as variáveis resposta foi pequena, o que sugere que a variável de resposta não impactará diretamente no viés das predições genômicas.

De maneira geral, o sucesso da SG depende da acurácia dos DGV, que por sua vez é uma função da densidade de marcadores, tamanho da população de treinamento, nível de desequilíbrio de ligação na população, tamanho efetivo populacional, relação de parentesco entre a população de treinamento e validação, herdabilidade e arquitetura genética da característica. Nesse estudo, a baixa densidade dos marcadores, o tamanho moderado do efetivo da população (378) e o pequeno tamanho da população de treinamento ( 752) podem ter limitado a acurácia de predição. Assim, níveis maiores de acurácia de predição podem ser alcançados com aumento do tamanho da população de treinamento e da densidade de marcadores. No entanto, como relatado por Lorenz et al. (2011), o aumento do tamanho da população de treinamento e da densidade de marcadores deve ser escalonado simultaneamente com o tamanho efetivo populacional.

A adição de animais não relacionados pode causar efeito contrário e reduzir as estimativas de acurácia de predição, como ocorreu no estudo de Lu et al. (2016), com um conjunto de dados de bovinos de corte. Neste estudo a adição de mais animais ao grupo de treinamento inicial fez com que a acurácia caísse à medida que mais animais eram incluídos na população de treinamento. Teoricamente, um aumento no tamanho da população de treinamento deveria ter aumentado a capacidade preditiva (Hayes et al., 2009; Garrick 2011). No entanto, a adição de animais de várias populações à população de referência coincidiu com a adição de animais menos relacionados, aumentando a distância genômica média entre os animais nos grupos de treinamento e validação, o que indica a importância de incluir indivíduos que estejam intimamente relacionados.

3.5. Conclusão

Nenhum dos três métodos de predição, GBLUP, Bayes Cπ e Bayes LASSO, se destacou em termos de habilidade em melhorar a acurácia das predições genômicas para a população de caprinos Saanen deste estudo. No entanto, o método GBLUP foi o mais adequado por apresentar o menor custo computacional. Apesar do menor viés observado para os dEBV, os EBV são as variáveis resposta preferidas, ao se considerar as acurácias de predição genômica desta população.

Documentos relacionados