• Nenhum resultado encontrado

Estimação de ploidia seleção de modelos

Usualmente, nos problemas envolvendo técnicas de agrupamento (ver Apêndice I) não dispomos de pontos de referência disponíveis a priori para aglomerar os indivíduos da amostra. É necessário o uso de medidas de distância entre indivíduos (que avalie o grau de similaridade interna do grupo), e entre agrupamentos (que avalie o grau de diferenciação entre grupos). Um problema adicional é a estimação do número de agrupamentos caso não haja informação a respeito.

O problema de genotipagem de poliplóides é semelhante aos problemas de classificação e agrupamento, exceto pelo fato de que, uma vez definido o número de agrupamentos (ou ploidia) dispomos de pontos de referência em que esperamos uma aglutinação maior dos dados, como visto na Seção 4.1. Uma vez definidos o modelo de distribuição de dados e seu respectivo classificador como função de uma ploidia definida a priori (Seção 4.2), resta-nos estimar qual a ploidia mais adequada para descrever os dados experimentais e por consequência classificar (ou genotipar) as amostras.

4.3.1

Medidas de distância interna de agrupamentos

Sabendo como genotipar amostra segundo uma ploidia fixa p, precisamos avaliar entre um conjunto finito de possíveis ploidias {p0, p1, . . . , pN} qual a mais adequada (verossímil) aos nossos dados.

Pela construção do modelo de genotipagem, conhecemos os padrões esperados na amostra caso ela não sofresse influência de erros experimentais (ver Seção 3.2.1). Como os erros de medida necessariamente ficam em torno desses pontos conhecidos, uma maneira natural de construir um critério de escolha para as ploidias candidatas é a de pensarmos em medidas de distância, como por exemplo:

• Distância Qui-Quadrado: χ2=PN j=1

(Oj−Ej)2

Ej ;

• Erro Quadrático: EQ =PNj=1(Oj− Ej)2;

• Erro Geométrico Médio MGE = 1 − N r QN j=1 1+Oj 1+Ej 2 . em que,

• Ej:valor esperado do j-ésimo elemento da amostra.

Aplicando os classificadores descritos na Seção 4.2 para diferentes ploidias, e fazendo uso de medidas de distância como as descritas acima, obtemos uma lista de ploidias candidatas a descrever melhor os dados experimentais. Outras medidas de distância podem ser usadas, vide Apêndice I.1. Como veremos mais adiante na análise de dados simulados Seção 4.6 tais medidas podem ser boas para avaliar a coesão dos grupos em torno de seu ponto central, porém ainda precisamos ter uma idéia da dissimilaridade entre agrupamentos diferentes.

Apesar da simplicidade no critério de escolha da ploidia mais adequada, ainda confrontamos o seguinte problema:

Como garantir que o valor que consideramos ser o esperado para uma determinada observação, é realmente adequado?

Para responder a esta questão, podemos fazer uso de arranjos experimentais com medidas repetidas de um mesmo indivíduo.

4.3.2

Medidas repetidas

Medidas repetidas são comuns em experimentos com cruzamentos controlados. Por exemplo, em um experi- mento F1, os dados dos pais são medidos várias vezes a fim de verificar a calibração dos instrumentos, pois é esperado que dados do mesmo indivíduo obtidos várias vezes, sob as mesmas condições, possuam algum tipo de estabilidade.

Um critério para avaliar prováveis ploidias, é o de considerar apenas ploidias que comportam medidas coerentes (com classificações iguais) no mesmo genótipo, penalizando ploidias que classificam ambiguamente tais medidas. A Figura 4.6 ilustra este tipo de situação. Dois indivíduos, cada um com 12 medidas repetidas. As regiões de classificação genotípica (dependentes da ploidia) aparecem em branco e cinza claro entre os raios da figura. Um dos indivíduos (marcado com triângulos) possui 11 medidas distribuídas ao longo do eixo PB e uma única medida no eixo PA, o que pode ser um indício de erro experimental. O outro indivíduo

(marcado com quadrados) fica classificado ambiguamente se consideramos a ploidia 9, porém, na ploidia 10 todas suas medidas são classificadas coerentemente, permanecendo na mesma região de genotipagem (em cinza).

Figura 4.6: Regiões de classificação (genotipagem) com dados reais de cana-de-açúcar.

Na Tabela 4.2, temos para diferentes ploidias (de 2 a 19), os genótipos dos pais (colunas G1e G2) e o

CAPÍTULO 4. GENOTIPAGEM E ESTIMAÇÃO DE PLOIDIA 44

9, os dois pais possuem cada um, uma medida incoerente, já na ploidia 10, apenas um dos pais possui uma medida incoerente. p G1 G2 EG1 EG2 2 1 0 0 1 3 1 0 0 1 4 1 0 0 1 5 1 0 4 1 6 2 0 0 1 7 2 0 0 1 8 2 0 0 1 9 3 0 1 1 10 3 0 0 1 p G1 G2 EG1 EG2 11 3 0 0 1 12 4 0 5 1 13 4 0 0 1 14 4 0 0 1 15 4 0 4 1 16 5 0 2 1 17 5 0 0 1 18 5 0 3 1 19 6 0 5 1

Tabela 4.2: Genótipos e número de medidas incoerentes para diferentes ploidias

4.3.3

Medidas de distância entre de agrupamentos

Na Subseção 4.3.1 vimos como mensurar a coesão ou variabilidade interna dos agrupamentos. Porém, pouca variabilidade ou coesão nos agrupamentos não garante um critério adequado para a estimação da ploidia. Como podemos ver no exemplo descrito pela Figura 4.7, temos um conjunto de dados de ploidia 5. Fazendo variar a ploidia, mudamos os pontos de classificação indicados pelas retas verticais tracejadas. Os valores da densidade sob estes pontos variam conforme a ploidia, e como podemos ver, ploidias com pontos de classificação ruins levam a valores de densidade distantes do eixo x. Para ploidia 5 todos os pontos ficam em cima da abcissa (eixo x).

Figura 4.7: Densidades nos pontos de classificação para diferentes ploidias candidatas

Portanto uma medida natural de distância entre grupos que separe bem as ploidias candidatas é a distância quadrática da densidade estimada nos pontos de fronteira e a abcissa, isto é,

Dsep(X, p) = 1 p p−1 X k=0 f (xk)2 (4.10) em que: • p : ploidia;

CAPÍTULO 4. GENOTIPAGEM E ESTIMAÇÃO DE PLOIDIA 46

• f : densidade dos dados projetados no espaço combinação convexa [0;1] pela transformação U, definida pela Equação 4.3;

• xk : ponto de fronteira entre agrupamentos diferentes, xk =0,5+kp para k = 0, ..., p − 1.

A medida Dsep assim definida, representa a soma das densidades nos pontos de fronteira. Quanto maior o

tamanho da amostra, melhor será a estimação da densidade f e por consequência, melhor a avaliação de Dsep. Quanto mais próximo de 0 estiver o valor de Dsep é maior o indício de separação dos agrupamentos.

A formulação da Equação 4.10 é referente ao caso de genotipagem de poliplóides bialélicos. Para o caso multialélico, em vez de pontos de fronteira, temos superfícies de fronteira, como vimos na Figura 4.5, sendo necessário o uso de alguma medida resumo a ser aplicada na densidade obtida a partir da amostra para medir a separação entre os agrupamentos.

4.3.4

Estimadores de ploidia

Como nas técnicas de agrupamento, temos uma medida de coesão ou variabilidade interna dos grupos definidas na Subseção 4.3.1, e também temos uma medida de dissimilaridade definida pela Equação 4.10. Assim, podemos definir:

D(X, p) = d(X, p) + Dsep(X, p) (4.11)

Assim, o estimador ˆp pode ser definido por:

ˆ

p = arg min

p∈{2,...,P }D(X, p)

• d(X, p), é uma distância de variabilidade interna dos agrupamentos para ploidia p; • X, é a matriz de dados da amostra;

Na Seção 4.6 avaliamos em diferentes condições as seguintes medidas: 1. L1: distância EQ + Dsep;

2. L2: distância Qui + Dsep;

3. L3: distância MGE + Dsep;

Obtemos então um critério simples para estimar a ploidia que melhor descreve os dados. De fácil aplicação e que pode ser extendido para dimensões maiores no contexto de genotipagem de multialélicos poliplóides.

Documentos relacionados