MELHORIA DA CORRELAÇÃO COFENÉTICA PELA EXCLUSÃO DE UNIDADES EXPERIMENTAIS NA CONSTRUÇÃO DE DENDROGRAMAS

(1)

MELHORIA DA CORRELAÇÃO COFENÉTICA PELA EXCLUSÃO DE

UNIDADES EXPERIMENTAIS NA CONSTRUÇÃO DE

DENDROGRAMAS

IMPROVEMENT OF COPHENETIC CORRELATION FOR THE

EXPERIMENTAL UNITS EXCLUSION IN THE DENDROGRAMS

CONSTRUCTION

Maurício Marini Kopp(1), Velci Queiroz De Souza(1), Jefferson Luís Meirelles Coimbra(1), Viviane Kopp da Luz(2), Naciele Marini(3), Antônio Costa de Oliveira(4)

RESUMO

Neste estudo foi avaliado o efeito da opção trim do procedimento proc cluster, fornecida pelo programa computacional SAS, na retirada de genótipos com baixa consistência de agrupamento na construção de dendrogramas através do método UPGMA. Para construção dos dendrogramas foram utilizados dados de 5 caracteres morfológicos de 10 genótipos de arroz. Os coeficientes de correlação cofenética foram obtidos comparando-se as matrizes de dissimilaridade geradas com a representação gráfica dos agrupamentos. Foram utilizados cinco valores de trim (0, 10, 20, 30 e 40%), para identificação dos genótipos a serem retirados da análise. Após a retirada dos genótipos, foram recalculadas as matrizes de dissimilaridade, reconstruídos o dendrograma e obtido o valor de correlação cofenética. Através dos valores de correlação cofenética obtidos em cada nível de trim utilizado, foi possível constatar que a eliminação de genótipos com baixa consistência de agrupamento influenciou positivamente a interpretação dos resultados dando maior confiabilidade às análises de dendrogramas.

Palavras-chave: Análise de agrupamento, dissimilaridade, SAS.

ABSTRACT

In this study the effect of the option trim of the procedure proc cluster, supplied by the computational program SAS, was evaluated in the roughing of genotypes with low grouping

1. Eng. Agr., Doutorando Fitomelhoramento, UFPel.

2. Agronomia, Centro de Genômica e Fitomelhoramento, UFPel. 3. Química, Centro de Genômica e Fitomelhoramento, UFPel.

(2)

consistence in dendrogram construction through the UPGMA method. For construction of dendrograms, data from 5 morphological characters of 10 rice genotypes were used. The cophenetic correlation coefficients were obtained comparing the main dissimilarity generated with the graphical representation of the groupings. Five values of trim were used (0, 10, 20, 30 and 40%), for identification of the genotypes to be take out of the analysis. After roughing of the genotypes, the main dissimilarity, construction of the dendrogram and value of cophenetic correlation were re-calculated. Through the values of cophenetic correlation obtained in each level of used trim, it was possible to verify that the elimination of genotypes with low grouping consistence positively influenced the interpretation of the results giving larger reliability to dendrogram analyses.

Key words: Cluster analysis, dissimilarity, SAS. INTRODUÇÃO

Estudos que apresentam foco tanto na variabilidade quanto na dissimilaridade ou similaridade genética em culturas de grande importância agronômica vêm se tornando cada vez mais relevantes para o melhoramento vegetal. A confiabilidade destas análises é um dos fatores que, com o avanço das pesquisas, vem se tornando cada vez mais importante para a eficiência dos resultados obtidos pelos melhoristas. Constantemente, nestes trabalhos, os pesquisadores têm interesse em agrupar as observações semelhantes de forma que as maiores dissimilaridades ocorram sempre entre os grupos (clusters) formados.

Algumas análises, como por exemplo, análise de componentes principais e análise de agrupamento podem ser empregadas para caracterizar a variabilidade tanto entre quanto dentro dos

genótipos de interesse, e se constituem em excelentes alternativas para facilitar a interpretação de dados. Dentre estas, pode ser destacada a análise de agrupamento que é muito utilizada pelos pesquisadores tanto da área de melhoramento genético vegetal quanto na caracterização morfológica de novos acessos, ou seja, na caracterização morfológica de coleções de constituições genéticas geralmente mantidas em bancos de germoplasma e ainda pouco conhecidas pelos melhoristas.

O dendrograma é comumente utilizado para representação gráfica dos agrupamentos gerados a partir de métodos seqüencial, aglomerativo, hierárquico e sem sobreposição conhecido como SAHN (Sequencial, Agglomerative, Hierarquic,

Nonoverlapping, Clustering Methods).

Dentro desse método destaca-se a utilização da ligação média entre o individuo ou grupo que se pretende unir ao grupo pré-existente

(3)

(Average Linkage Clustering). Se esta média der pesos iguais aos indivíduos agrupados e candidatos a agrupamento, o método é descrito como UPMGA (Unweighted Pair-Group Method Using

Arithmetic Averages) (SNEATH e SOKALl, 1973). Nestes métodos em cada passo do agrupamento há necessidade de recalcular o coeficiente de dissimilaridade (ou similaridade) entre os grupos estabelecidos e possíveis candidatos a futuras admissões no grupo. Além disso, reconsidera-se também o critério de admissão de novos membros aos grupos já estabelecidos (SNEATH e SOKAL, 1973). Considerando que os resultados dos agrupamentos sofrem acúmulo de erro a cada ciclo de inclusão de um indivíduo, isto se reflete na construção do dendrograma, conduzindo a interpretações distorcidas dos resultados obtidos (MEYER, 2002).

Alguns métodos estatísticos de análises, por exemplo, a análise de correlação cofenética (SOKAL e ROHLF, 1962) associadas à análise de agrupamento, podem ser empregados para aumentar a confiabilidade das conclusões frente a interpretação dos dendrogramas. A correlação cofenética é uma análise que estabelece uma correlação entre a matriz de similaridade ou dissimilaridade com o dendrograma gerado através desta, ou seja, compara as reais distâncias obtidas entre os

acessos com as distâncias representadas graficamente sujeitas ao acúmulo de erro supra citado.

Outro aspecto bastante relevante é que os artigos publicados com estes temas não adotam medidas alternativas para obtenção de conclusões quando os valores de correlação cofenética são baixos, evidenciando assim, a necessidade de estudos a este respeito. Além disso, são raros os trabalhos que demonstram o efeito da opção trim de retirada de genótipos do procedimento proc cluster fornecida por meio do programa estatístico SAS (STATISTICAL ANALYSIS SYSTEM, 2002) nas inferências apuradas pela análise de dendrogramas.

Uma alternativa para que valores de correlação cofenética sejam maximizados está na utilização da opção trim (proc

cluster). Esta opção, omite os pontos com

baixa densidade de probabilidades estimadas na análise. Valores válidos para a opção trim são 0 ≤ p < 100, sendo p a porcentagem de observações omitidas da análise.

Por exemplo, a especificação da opção de trim=10 significa que 10% das observações serão aparadas ou desbastadas. O valor ideal da opção trim pode variar proporcionalmente à variabilidade presente nas observações. Por exemplo, quando o pesquisador estiver trabalhando com

(4)

populações segregantes F2, onde a

variabilidade é grande, o valor da opção

trim deve ser aumentado. No entanto,

quanto se estiver trabalhando com constituições genotípicas uniformes, talvez este valor da opção trim possa ser reduzido. Normalmente, um valor de trim=10 é um valor bastante razoável para a maioria dos casos.

O presente estudo teve como objetivo verificar o comportamento dos valores de correlação cofenética mediante a utilização da opção trim do proc cluster em dendrogramas gerados através do método de ligação média (UPGMA).

MATERIAL E METODOS

A análise de agrupamento e os valores de correlação cofenética, foram gerados no programa computacional estatístico NTSYS pc 2.1 (ROHLF, 2000). Para verificar quais genótipos seriam desbastados, foi utilizado o programa computacional SAS (STATISTICAL ANALYSIS SYSTEM, 2002) através da opção trim do procedimento proc cluster.

Foram avaliados 10 genótipos de arroz através da mensuração de cinco caracteres morfológicos: rendimento, ciclo, estatura, peso de 1000 grãos e número de grãos férteis por panícula. Os dados foram utilizados para obtenção das matrizes de dissimilaridade baseadas na distância

generalizada de Mahalanobis através do programa computacional GENES (CRUZ, 2001). As matrizes geradas foram utilizadas para obtenção dos dendrogramas pelo método UPGMA que não considera a estrutura de subdivisão do grupo, dando pesos iguais a cada indivíduo e recalculando a dissimilaridade média de um indivíduo que se pretende juntar ao grupo pré-existente. Foram utilizados cinco valores de trim (0, 10, 20, 30 e 40%), para cada valor de trim utilizado foram obtidos os genótipos que deveriam ser excluídos da análise, pois apresentavam baixa consistência de ligação. Eliminando-se estes genótipos, foram geradas novas matrizes, dendrogramas e recalculados os valores de correlação cofenética. Para confirmação da influência positiva de retirada (trim) sobre os valores de correlação também foi eliminado um genótipo ao acaso, excluindo-se os genótipos eliminados pelos outros valores de trim, após aplicação de um trim de 10%.

RESULTADOS E DISCUSSÃO

Os dendrogramas obtidos estão representados nas Figuras 1 (A, B, C e D) e Figura 2. Na Figura 1 A está apresentado o dendrograma representativo dos agrupamentos formados com os 10 genótipos sem a inclusão da opção trim onde se pode observar que o valor da

(5)

correlação cofenética foi de 0,72. Segundo ROHLF e FISHER (1968) este valor é considerado baixo, demonstrando que a representatividade das reais distâncias entre os genótipos através da representação gráfica do dendrograma não é confiável.

Na Figura 1 B, após a utilização de um valor de 10% de trim, foi possível eliminar o genótipo 9 devido a sua baixa consistência de agrupamento. Após ter eliminado este genótipo pode-se observar que o valor da correlação cofenética aumentou de 0,72 para 0,82 que é considerada uma boa correlação (ROHLF e FISHER, 1968). Isto possivelmente ocorreu devido a este genótipo estar influenciando negativamente a representatividade da matriz pelo seu agrupamento, ou seja, este genótipo é o que mais contribui para o acúmulo de erro gerado a cada inclusão de genótipos na construção do dendrograma. A retirada deste genótipo, não influenciou a formação dos demais agrupamentos como pode ser visto nas Figuras 1 A e B.

Com a aplicação de um valor de

trim de 20%, não foi possível retirar

nenhum dos genótipos utilizados nesta análise, pois possivelmente os genótipos a serem eliminados apresentavam níveis de consistência de agrupamento muito similares. Neste caso, verificou-se que com a retirada de 10% dos genótipos eliminou-se o genótipo 9, com 20% eliminou-seria eliminado o

genótipo 9 e o genótipo 3 ou 5, pois estes genótipos apresentaram mesma probabilidade de consistência de agrupamento e deveriam ser eliminados os dois. Como os valores da opção trim preconizam eliminação de no máximo 20%, nem o genótipo 3 nem o 5 foram eliminados ficando a critério do pesquisador a eliminação de algum deles (dados não apresentados).

Na Figura 1 C, onde foi utilizado um trim de 30 %, foram eliminados os genótipos 9, 5 e 3. Quando estes genótipos foram retirados da análise, o valor da correlação cofenética passou de 0,82 para 0,84 sendo o dendrograma ainda considerado de boa representatividade. Neste caso, os genótipos retirados, não tiveram uma grande influência nos valores da correlação, no entanto, modificaram a estrutura de agrupamento. Como pode ser visto na Figura 1 A, os genótipos 9, 6 e 4 apresentavam-se como mais dissimilares em relação aos demais genótipos, no caso de uma recomendação para cruzamentos estes grupos seriam considerados. A partir da utilização de 30% de trim, com o corte de alguns genótipos (9, 5 e 3), o agrupamento a ser considerado mais dissimilar passa a ser entre o grupo formado pelos genótipos 10, 6 e 4, e o grupo dos genótipos 8, 2, 7 e 1.

(6)

Quando utilizado 40 % de trim (Figura 1 D) que eliminou quatro genótipos (9, 5, 3 e 4) o valor da correlação cofenética subiu de 0,84 para 0,91 o qual passa a ser considerado muito bom (ROHLF e FISHER, 1968) dando maior confiabilidade sobre as inferências geradas a partir do dendrograma. Neste caso, quando comparado com o dendrograma relativo a não utilização da opção trim, verifica-se que apenas o genótipo 6 está mais distante do grupo formado pelos demais genótipos e que os genótipos 9, 5, 3 e 4 contribuíam negativamente para a representação gráfica, causando interpretações menos confiáveis das distâncias genéticas entre os genótipos. Isto pode ser comprovado a partir das alterações geradas nos valores da correlação entre a matriz de dissimilaridade e os dendrogramas gerados.

Para confirmar o efeito dos genótipos com baixa consistência de agrupamento e a sua influência sobre o valor cofenético, foi retirado o genótipo 8 aleatoriamente dentre os que apresentaram alta consistência de agrupamento, pois não foi eliminado através da opção trim em nenhum dos níveis utilizados. Este genótipo foi eliminado após já ter sido eliminado um dos genótipos através da utilização da opção trim de 10% (r = 0,82). Assim, pode ser verificado que mesmo após a retirada de algum genótipo (trim = 10%), a opção trim

continua indicando o genótipo que mais contribui para aumento do erro gerado na construção do dendrograma. O resultado pode ser observado na Figura 2, e verifica-se que o valor da correlação cofenética foi reduzido de um patamar de 0,82 para 0,78. Este resultado demonstra que somente genótipos com baixa consistência de agrupamento, os quais são eliminados pela opção trim, influenciam positivamente na representatividade da matriz pelo dendrograma quando excluídos, ou seja, a retirada de genótipos aleatoriamente pode não resultar no melhor ganho em termos de correlação cofenética.

CONCLUSÕES

Com este trabalho foi possível concluir que os valores da correlação cofenética são aumentados à medida que são eliminados genótipos a partir da utilização da opção trim. Isto ocorre possivelmente devido à influência destes genótipos sob o erro gerado durante a construção do dendrograma, que está baseada nas distâncias médias entre os genótipos e não nas reais distâncias, com isto, à medida que os agrupamentos são formados, erros estão incluídos na representação dos agrupamentos, diminuindo a correlação cofenética e a confiabilidade da interpretação gráfica.

(7)

REFERÊNCIAS

CRUZ, C.D. Programa genes: aplicativo computacional em genética e estatística. 2001. Editora UFV, Viçosa, 648p. 2001.

MEYER, A.S. Comparação de coeficientes de similaridade usados em análises de agrupamento com dados de marcadores moleculares dominantes. Piracicaba, 2002. 106p. Dissertação (Mestrado em Agronomia) – Escola Superior de Agricultura “Luiz de Queiroz” – Universidade de São Paulo.

ROHLF, F.J. NTSYS-pc: numerical taxonomy and multivariate analysis system, version 2.1. 2000. New York: Exeter Software, 2000.

ROHLF, F.J.; FISHER D.L. Test for hierarchical structure in random data sets. Systematic Zoology, Washington, v.17, p.407-412. 1968.

SNEATH, P.H.A.; SOKAL, R.R. Numeric taxonomy: the principles and practice of numerical classification . 1973. San Francisco: W.H. Freeman, 1973. 573p. SOKAL, R.R.; ROHLF, F.J. The comparison of dendrograms by objective methods. Taxon, Berlin, v.11, p.30-40, 1962.

STATISTICAL ANALYSIS SYSTEM. SAS: Statistical Analysis System - Getting Started with the SAS Learning Edition. 2002. Cary, NC: SAS Institute. 2002. 86p.

(8)

FIGURA 1. Dendrogramas obtidos através das matrizes de dissimilaridade genética baseadas na distância

generalizada de Mahalanobis de genótipos de arroz, utilizando 5 caracteres morfológicos, agrupados pelo método de agrupamento Unweighted Pair-Group Method Using Arithmetic Averages (UPGMA) mediante utilização de 4 valores de trim (A=0, B=10, C=30 e D=40 %). Pelotas, UFPel, 2004.

FIGURA 2. Dendrograma obtido através da matriz de dissimilaridade genética baseada na distância

generalizada de Mahalanobis de genótipos de arroz, utilizando 5 caracteres morfológicos, agrupados pelo método de agrupamento Unweighted Pair-Group Method Using Arithmetic Averages (UPGMA) mediante utilização de 10% de trim e eliminação do genótipo 8 de elevada consistência de agrupamento. Pelotas, UFPel, 2004.