• Nenhum resultado encontrado

Pesquisa Multilocos e Seleção de Modelos No capítulo 3 foi introduzido o uso de modelos de regressão na identificação de QTL’s envolvidos

No documento Capítulo 1. Introdução (páginas 53-56)

na regulação de um fenótipo (variável sob estudo). Neste caso, o mapeamento de QTL’s é realizado a partir da informação de um mapa de marcadores moleculares, o que pode gerar diferentes modelos de acordo com posições candidatas fixadas ao longo do mapa. Deste modo, a identificação de QTL’s está associada ao problema de seleção de modelos. Considerando os dados de um delineamento com cruzamentos controlados, por exemplo, o F2, imagine que existe um número finito de QTL’s

segregantes controlando o fenótipo de interesse e deseja-se estimar o número, as localizações e os seus efeitos aditivos e de interação. Relativamente ao número de QTL’s, é comum defini-lo com base nas análises dos efeitos individuais de QTL’s fixados em posições seqüenciais ao longo do mapa de marcadores (distando 1cM, por exemplo) ou por meio de metodologias bayesianas, em que este número é tratado como variável aleatória (Silampaa and Arjas, 1998, 1999; Satagopan, 1996; Yi et al., 2005a, 2005b). Além disso, na formulação do modelo deve-se decidir pela inclusão de efeitos somente aditivos, somente de dominância ou mesmo de ambos, bem como dos possíveis efeitos de interação. Cada alternativa pode conduzir a diferentes modelos finais, isto é, se a busca é pelo QTL de maior efeito aditivo individual, o resultado pode ser diferente daquele em que busca-se pelo QTL de maior efeito de dominância. Ainda, se é admitido efeito de interação, são várias as possibilidades de busca por QTL’s epistáticos.

No caso de modelos de regressão que incluem QTL’s epistáticos, no capítulo 3 foi introduzido o Mapeamento Intervalar Múltiplo. Mesmo adotando-se um particular modelo, por exemplo, que

54

contenha apenas dois QTL’s, Q1 e Q2, com efeitos apenas aditivos e em interação, o problema de

seleção de modelos permanece, referindo-se a quais posições pos1 e pos2, em dois diferentes intervalos

I1 e I2 no mapa de marcadores, conduzem ao “melhor” ajuste.

Selecionar um modelo significa, após a formulação e ajuste de diferentes modelos plausíveis, selecionar o modelo que “melhor” se ajusta aos dados de um certo experimento de acordo com um determinado critério adotado (Camarinha Filho, 2002). Fisher (1922) discutiu três aspectos do problema geral de inferência: especificação do modelo, estimação dos parâmetros do modelo e precisão da estimativa. Para o mapeamento de QTL’s, a estes três aspectos adiciona-se ainda a seleção de modelos. A especificação do modelo leva em conta o número de QTL’s, quais os seus efeitos (aditivo, de dominância e interações) e suas posições no mapa. Na estimação ou ajuste do modelo, bem como na precisão das estimativas, pode-se adotar metodologias paramétricas ou não paramétricas, sendo as primeiras mais comuns. Alternativas são os modelos de regressão com efeitos genéticos fixos e premissas distribucionais clássicas (normalidade, independência e homocedasticidade), como proposto por Haley and Knott (1992), ou sob distribuição mistura de normais, como proposto por Zeng (1994). Desde que a especificação do modelo assume posições particulares dos QTL’s e o mapa de marcadores deve ser pesquisado, tão densamente quanto possível, para diferentes posições (do inglês, genome scan), a comparação entre diferentes modelos é inevitável.

A seleção de modelos, segundo Broman (2001) exige quatro passos distintos: • Selecionar uma classe de modelos: refere-se à especificação do modelo;

• Pesquisar diretamente o espaço dos possíveis modelos e dar ênfase, quando de interesse, a modelos particulares;

• Adotar um critério de seleção e comparar os diferentes modelos relativamente a este critério; • Assegurar o desempenho do procedimento, isto é, assegurar que o valor do critério atribuído a cada

modelo mensure seu grau de aptidão ou adequabilidade e que o conjunto destes valores gere uma escala que diferencie entre os modelos.

O problema de identificação de modelos tem, basicamente, duas componentes. Primeiro, deve-se formar um critério para comparação entre os diferentes modelos. Modelos com o mesmo número de parâmetros são geralmente comparados pelo critério da soma de quadrados dos resíduos (SSE) obtidos

55

após a estimação dos coeficientes de regressão por mínimos quadrados, por exemplo. Sob este critério, o modelo com a menor valor da soma de quadrados dos resíduos é selecionado. Quando se compara modelos com diferentes números de parâmetros, não se pode simplesmente selecionar o modelo com o menor valor para a soma de quadrados dos resíduos, pois desde que um novo parâmetro (variável preditora) seja adicionado ao modelo, a soma de quadrados dos resíduos tende a diminuir. Nestes casos, penalizações devem ser incluídas nos critérios.

A segunda parte do problema é a pesquisa do espaço de busca, que envolve um maior número de possíveis modelos competitivos à medida que o espaço de busca aumenta. Considere a classe de modelos composta por um número finito de QTL’s, onde QTL’s devem ocorrer tanto sob posições definidas pelos próprios marcadores, como também por posições intermediárias em intervalos diferentes. Se o número de marcadores é M então, considerando-se dois QTL’s, devem existir





=

2

2 ,

M

C

M modelos possíveis, sendo CM,2 o número de combinações de M duas a duas,

considerando-se somente as posições dos próprios marcadores e modelos com dois locos epistáticos. Logo, se M = 100 marcadores, então existirão C100,2 = 4.950 modelos possíveis.

Paulino et al. (2003) argumenta que a seleção de modelos não deve estar dissociada ao objetivo do estudo e de conhecimentos prévios sobre o problema factual. Na comparação entre diferentes modelos é importante poder responder a perguntas como: o modelo em consideração é adequado, atende aos objetivos do estudo e aos conhecimentos prévios? Dada uma coleção de modelos, qual é o melhor?

Em Estatística há uma vasta literatura pertinente à seleção de modelos (Broman, 1997; Burnham and Anderson, 1998, 2002). Uma alternativa para seleção de modelos é a utilização de métodos baseados na função de verossimilhança, que fornece diversas medidas estatísticas que auxiliam na comparação entre os diferentes modelos. As mais comuns destas medidas são a estatística da razão de verossimilhanças e os critérios de Akaike (Paulino et al., 2003; Sakamoto et al., 1986). Outras propostas estão na classe de metodologias bayesianas, como o critério de Schwartz ou fator de Bayes e suas modificações (Broman, 1997; Wang, 2000). Alternativamente, pode-se fazer a seleção de modelos via estatísticas de adequabilidade do modelo, como o SSE (a soma de quadrados dos resíduos) e o critério Cp(Mallows, 1973; Miller, 1996).

56

Neste capítulo, apresenta-se os procedimentos de busca exaustiva e condicional para a pesquisa multilocos de mapas de marcadores. A seguir são apresentados vários critérios de seleção de modelos como o SSE, AIC (do inglês, Akaike Information Criterion) e BIC (do inglês, Bayesian Information

Criterion).

No documento Capítulo 1. Introdução (páginas 53-56)