• Nenhum resultado encontrado

Utilização de técnicas multivariadas na avaliação da divergência genética de populações de girassol (Helianthus annuus L.)

N/A
N/A
Protected

Academic year: 2021

Share "Utilização de técnicas multivariadas na avaliação da divergência genética de populações de girassol (Helianthus annuus L.)"

Copied!
98
0
0

Texto

(1)

CÂMPUS DE BOTUCATU

UTILIZAÇÃO DE TÉCNICAS MULTIVARIADAS

NA AVALIAÇÃO DA DIVERGÊNCIA GENÉTICA DE POPULAÇÕES

DE GIRASSOL (Helianthus annuus L.)

ANA VERGÍNIA LIBOS MESSETTI

Tese apresentada à Faculdade de Ciências Agronômicas da Universidade Estadual Paulista - Câmpus de Botucatu, para obtenção do título de Doutor em Agronomia - Área de Concentração em Energia na Agricultura.

BOTUCATU-SP Junho - 2007

(2)

CÂMPUS DE BOTUCATU

UTILIZAÇÃO DE TÉCNICAS MULTIVARIADAS

NA AVALIAÇÃO DA DIVERGÊNCIA GENÉTICA DE POPULAÇÕES

DE GIRASSOL (Helianthus annuus L.)

ANA VERGÍNIA LIBOS MESSETTI

Orientador: Prof. Dr. Carlos Roberto Padovani

Tese apresentada à Faculdade de Ciências Agronômicas da Universidade Estadual Paulista - Câmpus de Botucatu, para obtenção do título de Doutor em Agronomia - Área de Concentração em Energia na Agricultura.

BOTUCATU- SP Junho - 2007

(3)
(4)
(5)

Para ser sábio, é preciso primeiro temer ao Deus Eterno. Ele dá compreensão aos que obedecem aos seus mandamentos.

Que Deus seja louvado para sempre! Salmo 111: 10

À Deus, meu eterno protetor.

Ao meu esposo Valter e meus queridos filhos, Giulia (in memorian), Valter Luiz e Ana Clara

(6)

AGRADECIMENTOS

A Deus por ter me concedido força e coragem para enfrentar todas as dificuldades e concluir este trabalho.

Ao Prof. Dr. Carlos Roberto Padovani pela orientação, ensinamentos, incentivo e amizade.

Ao meu esposo Valter Luiz Messetti, pelo apoio e incentivo no decorrer do curso e aos meus filhos Giulia Libos Messetti (In Memorian), Valter Luiz Libos Messetti e Ana Clara Libos Messetti.

A toda minha família, que sempre me apoiou, incentivou nos momentos difíceis.

Aos amigos do Departamento de Matemática Aplicada e Estatística, pelo constante incentivo, amizade e apoio.

Aos amigos Jacinta, Rogério, Simone e Vanderli, pela agradável convivência no curso de pós-graduação.

Ao Eng. Agronômo Marcelo de Oliveira da EMBRAPA/Soja - Londrina por ter fornecido os dados de seus experimentos com girassol.

A Profª Elenice Pimentel pela revisão gramatical.

À Profª. Corina Maria Tedeschi Busnardo pela versão do resumo na língua inglesa.

A Ilza Almeida de Andrade e a Maria Aparecida Letrari pelos ajustes finais e correções das referências bibliográficas.

A todos aqueles que direta ou indiretamente colaboraram para a realização deste trabalho.

(7)

SUMÁRIO

Página

LISTA DE QUADROS ... vii

LISTA DE TABELAS ...viii

LISTA DE FIGURAS ... ix

RESUMO...1

SUMMARY...2

1 INTRODUÇÃO ...3

2 REVISÃO DE LITERATURA ...5

2.1 Histórico e Aspectos Fisiológicos do Girassol ...5

2.2 Técnicas Multivariadas e a Divergência Genética: Aspectos gerais...9

2.3 Análise de Agrupamento ... ...11

2.3.1 Breve histórico ... 11

2.3.2 Metodologia ...12

2.3.2.1 Medidas de dissimilaridades...13

2.3.2.2 Critério de agregação ou algoritmos de agrupamento ...16

2.3.2.3 Definição do número de grupos ...17

2.3.2.4 Validação e interpretação dos agrupamentos ...18

2.4 Análise de Componentes Principais ...19

2.4.1 Breve histórico ...19

2.4.2 Metodologia ...20

2.4.2.1 Critérios para definir o número de componentes ...22

2.5 Análise de Variáveis Canônicas ...24

2.6 Análise de Variância Multivariada ...26

2.6.1 Breve histórico ...26

2.6.2 Metodologia ...27

2.6.2.1 Verificação dos pressupostos ...27

2.6.3 MANOVA ...29

3 MATERIAL E MÉTODOS ...32

3.1 Material ...32

(8)

3.2.1 Medidas descritivas para amostras multivariadas ...34

3.2.2 Análise de componentes principais ...36

3.2.2.1 Componentes principais ...36

3.2.2.2 Obtenção dos componentes principais ...37

3.2.2.3 Decomposição da variância total ...39

3.2.2.4 Indicação para o número de componentes principais ...40

3.2.3 Análise de agrupamento ...41

3.2.3.1 Coeficiente de dissimilaridade ou critério de semelhança...41

3.2.3.1.1 Coeficientes de dissimilaridades para atributos quantitativos ...42

3.2.3.2 Algoritmo de agrupamento ...43

3.2.3.3 Definição do número de grupos ...45

3.2.3.4 Validação e interpretação dos agrupamentos ...46

3.2.4 Análise de variáveis canônicas (eixos canônicos) ...47

3.2.5 Análise de variância multivariada ...48

3.2.5.1 Os pressupostos sobre a estrutura de dados ...49

3.2.5.2 Teste de Wilks - Teste de igualdade de g vetores de médias ...51

3.2.6 Programas computacionais ...54

4 RESULTADOS E DISCUSSÃO ...55

4.1 Análise de Variância Univariada e Matriz de Correlações ...55

4.2 Análise de Componentes Principais ...56

4.3 Análise de Agrupamento ...61

4.3.1 Determinação do número de grupos ...62

4.3.2 Análise de variáveis canônicas ...69

4.3.3 Análise de variância multivariada ...72

5 CONCLUSÃO ...75

REFERÊNCIAS ...76

(9)

LISTA DE QUADROS

Página Quadro 1 - Resumo da revisão de literatura ... 31

(10)

LISTAS DE TABELAS

Página Tabela 1 – Variáveis estudadas e suas respectivas unidades de medida. ... 33

Tabela 2 – Especificação das populações (linhagens) de girassol ... 33

Tabela 3 – Análise de variância multivariada para comparar vetores de médias dos

grupos (MANAVA ) ... 52

Tabela 4 – Análise de variância das variáveis avaliadas nas populações de girassol .... 56

Tabela 5 – Estimativas das variâncias (autovalores) associadas à matriz de correlação e respectivas porcentagens de explicação da variação total ... 57

Tabela 6 – Coeficientes de ponderação das variáveis morfoagronômicas do girassol... 59

Tabela 7 – Escores relativos das populações de girassol, obtidos em relação aos dois primeiros componentes principais ... 60

Tabela 8 – Nível de similaridade em relação à fusão das populações de girassol

baseando-se na distância de Mahalanobis e algoritmo “Average Linkage”. 65

Tabela 9 – Resumo dos cálculos e valores da silhueta para distâncias euclideana e

Mahalanobis ... 67

Tabela 10 – Estimativas de variâncias (autovalores) associadas às variáveis canônicas, importâncias relativas e escores obtidos dos caracteres avaliados nas

populações de girassol ... 70

Tabela 11 – Agrupamentos formados das populações de girassol estabelecidos pela

distância Mahalanobis e do algoritmo “Average Linkage” ... 72

Tabela 12 – Combinações que apresentaram normalidade pelo teste Lilliefors ... 72

Tabela 13 – Teste de Box - Igualdade das matrizes de covariâncias ... 73

(11)

LISTAS DE FIGURAS

Página Figura 1 Descrição esquemática das fases vegetativa e reprodutiva do girassol... 6

Figura 2 Representação esquemática das fases de desenvolvimento do girassol... 6

Figura 3 Detalhes das fases vegetativa e reprodutiva do girassol (LEITE, 2005)... 7

Figura 4 “Scree-Plot” da Matriz de Correlação... 58

Figura 5 Dispersão das populações de girassol em relação aos escores dos dois componentes principais... 61

Figura 6 Dendrograma resultante da análise de agrupamento das populações de

girassol obtido do algoritmo “Single Linkage”, baseado na distância euclideana... 62

Figura 7 Dendrograma resultante da análise de agrupamento das populações de

girassol obtido do algoritmo “Complete Linkage”, baseado na distância euclideana... 62

Figura 8 Dendrograma resultante da análise de agrupamento das populações de

girassol obtido do algoritmo “Average Linkage” baseado na distância euclideana... 63

Figura 9 Dendrograma resultante da análise de agrupamento das populações de

girassol obtido do algoritmo “Single Linkage” baseado na distância Mahalanobis... 63

Figura 10 Dendrograma resultante da análise de agrupamento das populações de

girassol obtido do algoritmo “Complete Linkage” baseado na distância de Mahalanobis... 63

Figura 11 Dendrograma resultante da análise de agrupamento das populações de

girassol obtido do algoritmo “Average Linkage” baseado na distância Mahalanobis... 64

Figura 12 Gráfico da análise do comportamento do nível de fusão... 65

Figura 13 Gráfico do nível de similaridade “versus” o número de grupos. ... 66

Figura 14 Gráfico silhueta das populações empregando a distância

euclideana... 68

Figura 15 Gráfico silhueta das populações empregando a distância

Mahalanobis... 68

Figura 16 Perfis médios de agrupamento para solução de quatro grupos... 69

(12)

UTILIZAÇÃO DE TÉCNICAS MULTIVARIADAS NA AVALIAÇÃO DA DIVERGÊNCIA GENÉTICA DE POPULAÇÕES DE GIRASSOL (Helianthus annuus

L.). Botucatu, 2007. 87f. Tese (Doutorado em Agronomia – Área de Concentração em Energia na Agricultura) – Faculdade de Ciências Agronômicas, Universitade Estadual Paulista “Júlio de Mesquita Filho”.

Autora: ANA VERGÍNIA LIBOS MESSETTI Orientador: CARLOS ROBERTO PADOVANI

RESUMO

Este trabalho foi desenvolvido com os objetivos de avaliar a divergência genética de 12 populações de girassol do Banco de Germoplasma da EMBRAPA /Soja de Londrina por meio de técnicas multivariadas; divulgar tópicos recentes e interessantes das técnicas multivariadas que não são explorados nos trabalhos científicos de melhoramento de plantas e orientar a escolha de populações para cruzamentos nos programas de melhoramento genético da cultura de girassol. O modelo experimental constitui-se de delineamento bloco casualizado envolvendo 12 variedades de girassol avaliadas sob cinco caracteres morfoagronômicos. Por meio da análise univariada foi verificada diferença significativa (p<0,05) dos tratamentos para todos caracteres. A aplicação dos componentes principais permitiu a redução bidimensional, com a explicação de 82,5% da variação total. O número de componentes foi avaliado pelo critério de Kaiser e critério “Scree-test”. A visualização da divergência genética proporcionada pelos escores das duas primeiras variáveis canônicas, evidenciaram grupos geneticamente diferentes. Ambas técnicas apontaram concordância nos resultados. Com base nas estimativas da distância Mahalanobis e distância euclideana foi realizada a análise de agrupamento adotando-se três algoritmos hierárquicos. Para determinar o número de grupos adotou-se o dendrograma, a análise do nível de fusão e a análise do comportamento de similaridade. Para validação utilizou-se o critério de Wilks dentro de cada grupo e gráficos multivariados auxiliaram na interpretação dos resultados. Pode-se concluir pela existência da divergência genética, detectando-se quatro grupos geneticamente diferentes e caracterizado pelos escores médios.

(13)

THE USE OF MULTIVARIATE TECHNIQUES IN THE EVALUATION OF GENETIC DIVERGENCE IN SUNFLOWER (Helianthus annuus L.) POPULATIONS.

Botucatu, 2007. 87 pages. Thesis (PhD in Agronomy – Major Area: Agriculture Energy) - Faculdade de Ciências Agronômicas, Universidade Estadual Paulista “Júlio Mesquita Filho”. Author: ANA VERGINIA LIBOS MESSETTI

Advisor: CARLOS ROBERTO PADOVANI

SUMMARY

The objective of this work was to evaluate genetic divergence in 12 sunflower populations from EMBRAPA/ Londrina Soybean Germplasm Bank, using multivariate techniques, to discuss recent and interesting topics related to the multivariate techniques don´t found in plant improvement scientific papers, and to offer guidelines on how to choose populations for sunflower genetic improvement crossing programs. The experiment included a totally block casualized design, with twelve sunflower varieties, evaluated according to 5 morphoagronomics traits. The univariate analysis showed a significant difference (p<0,05) among treatments for all the traits. Application of main components allowed for a bi-dimensional reduction, with 82,5% of the total variation. The number of components were evaluated by the Kaiser and “Scree-test” criteria. Genetic divergence visualization provided by the two first canonical variables showed genetically different groups. Both techniques showed the same results. Based on Mahalanobis and Euclidean distance estimates, a clustering analysis was carried out using three hierarchicals algorithms. A dendrogram, a fusion level analysis and a similarity behavior analysis were conducted to determine the number of groups. Validation used the Wilks criteria inside each group, while multivariate graphs helped with data interpretation. Results from this study showed genetic divergence in four groups characterized by average/mean scores.

(14)

1 INTRODUÇÃO

O girassol é uma planta de uso diversificado, muito utilizado na alimentação humana e animal, na produção de combustível, na adubação verde em rotação de culturas, em floriculturas, entre outros. Devido a essa versatilidade, tem despertado interesse econômico em vários países, inclusive no Brasil. Para se ter idéia da necessidade de produção, o girassol responde por cerca de 13% de todo óleo vegetal produzido no mundo e vem aumentando o índice de crescimento de produção (UNITED STATES, 2003). A demanda mundial por óleo de girassol vem crescendo, em média, 1,8% ao ano. A demanda interna cresce em média 13% ao ano. Para suprir essa carência, o país importa o óleo principalmente da Argentina.

Por outro lado, o girassol está entre as espécies oleaginosas em estudo para viabilizar a produção de biodiesel no estado do Paraná. Órgãos governamentais estão empenhados em substituir o óleo diesel por óleo de origem vegetal, contribuindo para a redução do nível de poluição do ambiente, tornando-se assim uma importante alternativa de geração de renda para agricultura (GUERRA; PICKSIUS, 2005).

(15)

A cultura de girassol no Brasil necessita de um estudo mais aprofundado, no sentido de angariar informações que orientem os programas de melhoramento e superem os níveis de produtividade atuais. Um método utilizado pelos “melhoristas” é a avaliação da divergência genética, que pode ser estimada por meio de diversos caracteres de interesse da planta.

Os estudos brasileiros envolvendo girassol, até o presente momento descritos na literatura, na sua maioria, utilizaram-se de técnicas univariadas, não explorando a riqueza dos resultados das técnicas multivariadas, que direcionam melhoristas a concentrar esforços nas combinações mais promissoras, ou seja, nos materiais com maior divergência genética, maior heterose (aumento do vigor ou da fertilidade dos híbridos em relação às linhagens cauzadas para produzi-las), e consequentemente, maior produtividade.

As técnicas multivariadas podem ser utilizadas em estudos de divergência genética, tais como análise de componentes principais, análise de agrupamento, análise de variáveis canônicas, análise discriminantes, análise de variância multivariada, pois proporcionam enriquecimento das informações extraídas dos dados experimentais.

Na década de 80, a EMBRAPA/Soja de Londrina – PR traçou diretrizes de pesquisa para a cultura de girassol, em âmbito nacional, realizando e conduzindo ensaios em diversas regiões do país, para definir os cultivares apropriados por regiões, visando uma boa adaptação da planta quanto ao solo, clima, altitude, épocas de plantio, resistência às pragas e doenças e alta produtividade.

Diante desse contexto, este trabalho tem por objetivos: 1) avaliar a divergência genética de 12 populações de girassol do Banco de Germoplasma da EMBRAPA/Soja Londrina-PR, por meio de técnicas multivariadas denominadas análise de componentes principais, análise de agrupamento, análise de variáveis canônicas e análise de variância multivariada, envolvendo 5 caracteres morfoagronômicos das plantas; 2) divulgar tópicos recentes e interessantes dessas metodologias, que são pouco explorados nos trabalhos científicos de melhoramento de plantas e 3) comparação dos métodos multivariados para orientar a escolha de populações para cruzamentos nos programas de melhoramento genético da cultura de girassol (EMBRAPA).

(16)

2 REVISÃO DE LITERATURA

2.1 Histórico e Aspectos Fisiológicos do Girassol

O girassol cultivado, Helianthus annuus L., pertence à ordem Synandrales, família Compositae, subfamília Tubuliflorae, tribo Helianthease e gênero

Helianthus. A denominação Helianthus vem do grego hélios significando sol e anthos, flor

(ASTAFEIEF, 1997).

O desenvolvimento do girassol é uma seqüência de alterações morfológicas e fisiológicas na planta, denominada de fases fenológicas, separadas em dois estádios:

1. Fase vegetativa que caracteriza-se com início da emergência das plântulas e finaliza com o aparecimento da inflorescência (botão floral).

2. Fase reprodutiva que caracteriza-se com início do aparecimento da inflorescência e finaliza com a maturação da planta.

(17)

Para melhor esclarecimento das diferentes fases de desenvolvimento do girassol, as Figuras 1 e 2 apresentam um esquema baseado na descrição do desenvolvimento da planta definida por Schneiter e Miller (1981).

Semeadura Botão Início do Final da Maturação Colheita floral florescimento floração fisiológica

N° de folhas Desenvolvimento Enchimento

Emergência maiores que da Floração de Maturação 4cm inflorescência aquênios fisiológica VE VI, V2, VN... RI, R2, R3, R4 R5, R6 R7, R8 R9 Fase vegetativa Fase reprodutiva

Figura 1 – Descrição esquemática da fase vegetativa e reprodutiva do girassol.

Figura 2 – Representação esquemática das fases de desenvolvimento do girassol. Fase vegetativa:

VE: Emergência das plântulas, primeiro par de folhas menores que 4 centímetros. (Figura 3a) V(N): Aparecimento de folhas verdadeiras e definidas pelo número de folhas, com o mínimo de 4 (quatro) centímetros (Figura 3b).

Fase reprodutiva:

Fase R1: A inflorescência circundada pela bráctea imatura torna-se visível.

Fase R2: O internódio abaixo da base da inflorescência alonga-se de 0,5 a 2 cm acima da folha Fase R3: O internódio abaixo do botão reprodutivo alonga-se a mais de 2 cm acima da folha mais próxima da inflorescência (Figura 3c).

Fase R4: A inflorescência começa a abrir. Pequenas flores liguladas são visíveis e amarelas. Fase R5: As flores liguladas estão completamente expandidas e todo disco das flores está

(18)

visível. É o início da antese (Figura 3d).

Fase R6: A antese está completa e as flores liguladas perderam a turgidez e estão murchando. Fase R7: O dorso do capítulo torna-se amarelo claro.

Fase R8: O dorso do capítulo torna-se amarelo para castanho, porém as brácteas permanecem verdes.

Fase R9: As brácteas adquirem a coloração entre amarela e castanha. O dorso torna-se castanho. Ocorre a maturação fisiológica.

Fase VE (a) Fase VN (b) Fase R3 (c) Fase R5 (d)

Figura 3 – Detalhes das fases vegetativa e reprodutiva do girassol (LEITE, 2005).

O girassol teve como centro de origem a América do Norte. Evidências arqueológicas indicam que os índios norte-americanos já o cultivavam no Arizona e Novo México há cerca de 3000 a.C. Os primeiros contatos entre a América do Norte e a Europa ocorreram através da Espanha, onde exploradores espanhóis fizeram as primeiras introduções de girassol na Europa. A primeira documentação da presença da planta na Europa foi em meados de 1568, pelo herbarista Dodonaeus. O girassol era cultivado, até então, como planta ornamental, e a descoberta da utilização do girassol como planta oleaginosa ocorreu na Inglaterra em 1716, segundo Fick (1978), quando Artur Bunyan patenteou um processo de extração de óleo de girassol. O início da produção de óleo de girassol em escala comercial ocorreu em 1830, na Rússia, conforme citado em Skoric (1992). A Rússia tem sido o segundo maior produtor de óleo de girassol no mundo, e os méritos pela produção são creditados aos programas de melhoramento, que aumentaram a produtividade e a porcentagem de óleo nas sementes.

No Brasil, presume-se que cultivos esporádicos foram iniciados na região Sul, na época da colonização, quando os imigrantes europeus trouxeram hábitos

(19)

alimentares desta planta. A primeira referência ocorreu no ano 1924. Segundo Melo (1992), na década de 60 o Brasil possuía uma área de 360 ha com rendimento médio de 833 kg/ha. Até 1969 houve um aumento gradativo na área de plantio e no rendimento obtido, que passaram para 15300 ha e 1180 kg/ha, respectivamente. Na década de 70, foi constatado um período de declínio devido à falta de tecnologia de produção, à falta de organização da comercialização e às doenças fúngicas – altenária (Alternaria helianthi, Hausf.), esclerotínia (Sclerotinia

sclerotiorum, Lib.), e ferrugem (Puccinia helianthi Schw.).

Nos últimos anos, a área de plantio do girassol aumentou, e a produção no Brasil passou de 27,5 mil ton na safra de 1998 para 115 mil ton na de 1999. O estado de Goiás é o principal responsável pelo aumento da área plantada (BUZZETTI, 1999).

Atualmente, a média da produção mundial é 26 milhões de ton/ano, sendo a Argentina o maior produtor e o maior exportador de óleo de girassol, seguido da Rússia, Estados Unidos, França, Romênia e Espanha.

O girassol cultivado está situado entre as quatro mais importantes culturas anuais de óleo comestível do mundo, precedido apenas pela soja, palma e canola. O óleo de girassol nos últimos anos teve bom crescimento no mercado consumidor devido a riqueza em ácidos graxos polinsaturados que atuam na prevenção de doenças cardiovasculares e no controle do nível de colesterol no sangue de acordo com Souza (2001).

No Brasil, o Instituto Agronômico de Campinas (IAC) e a EMBRAPA são as instituições mais citadas em programas de melhoramento genético. O girassol possui grande variabilidade genética, e o conhecimento dessa variabilidade permite o direcionamento das estratégias de melhoramento genético, visando a obtenção de materiais que apresentam diferentes características de interesse agronômico, tais como produtividade, resistência a doenças, controle de pragas, precocidade, altura reduzida das plantas e adaptação às diferentes regiões brasileiras.

(20)

2.2 Técnicas Multivariadas e a Divergência Genética: Aspectos gerias

Os estudos das técnicas de análise multivariada não são recentes. Como citado em Anderson (1958), Adrian, em 1808, estudou a função densidade da distribuição normal bivariada, com seguimento pelos pesquisadores Gauss (1823), Bravais (1846) e Laplace (1911).

As técnicas multivariadas estavam completamente construídas, na teoria, por volta da década de 30. Na obra de Reis (1997), a história da estatística multivariada divide-se em três momentos do século passado. No início do século, alguns pesquisadores destacados contribuíram grandemente para o fundamento teórico multivariado, entre estes, Pearson (1901), Fisher (1928), Wilks (1932), Hotteling (1933) e Bartlett (1937). Após a década de 50, são citadas outras obras consideradas como clássicas, destacando-se Rao (1952), Kendall (1957, 1975), Anderson (1958, 1984), Morrison (1967, 1976) e Mardia, Kent, Bibby (1979).

No momento atual, Chatfield e Collins (1980), Dillon e Goldstein (1984), Hair Jr. et al. (1987, 2005), Johnson e Wichern (1988) e Everitt e Dunn (1996), Mingotti (2005) são autores que visam as aplicações dos métodos multivariados e as interpretações dos resultados, mostrando a necessidade atual dos pesquisadores buscarem resultados mais precisos.

No século XXI nota-se que em todas as áreas houve avanços tecnológicos e conseqüentemente grande demanda pelo conhecimento, envolvendo técnicas mais sofisticadas e rigorosas para executar as análises multivariadas de dados.

Especificamente, nos estudos de divergência genética, Falconer (1981) comentou que há quatro maneiras de se avaliar a divergência: estudos genealógicos, diversidade ecogeográfica, análise dialélica e técnicas multivariadas. Por dispensarem a obtenção prévia das combinações híbridas (análise dialélica), os melhoristas exploram os métodos preditivos da divergência a partir de técnicas multivariadas. Atualmente, tem sido tema de muitos trabalhos envolvendo várias culturas de interesse agrícola.

A literatura de Cruz e Regazzi (1997) sobre modelos biométricos é muito citada devido a orientação teórica, aplicação e interpretação dos parâmetros

(21)

multivariados. O autor disponibilizou um material para orientação da aplicação dos métodos de análises de dados resultantes de ensaios de genética e melhoramento de plantas.

Segundo Duarte (1998), o estudo de divergência genética por técnicas multivariadas tem merecido grande ênfase por serem empregadas tanto em caracteres morfológicos e agronômicos, como em marcadores moleculares. Os marcadores moleculares surgiram com o advento das técnicas de biologia molecular e tem sido bastante úteis para estudos de genética e melhoramento. Entre os vários tipos de marcadores moleculares destacam-se o RFLP (“Restriction Fragment Length Polymorphism”), o RAPD (“Random Amplified Polymorphic DNA”), o SSRs (“Simple Sequence Repeat”) e o AFLP (“Amplified Fragment Length Polymorphism”).

O objetivo central dos melhoristas tem sido classificar os genótipos em grupos, facilitando a escolha de genitores para hibridações, tendo como base medidas estatísticas como a distância D2 de Mahalanobis e a distância euclideana. Neste sentido, Moura (2003) apresentou os métodos mais explorados nos estudos de melhoramento: análise de variáveis canônicas, análise de componentes principais, análise de agrupamento e métodos aglomerativos (medidas de dissimilaridades). A escolha do método mais adequado tem sido determinada pela precisão desejada do pesquisador, pela facilidade da análise e pela forma como os dados foram obtidos.

Nos programas de melhoramento genético, diversos trabalhos utilizaram técnicas multivariadas nas diferentes culturas e regiões do Brasil. Especificamente, para a cultura de girassol as técnicas multivariadas são pouco exploradas. Mantêm-se, tradicionalmente, as técnicas univariadas como revistos nos 50 trabalhos publicados no simpósio nacional sobre a cultura de girassol realizado em Londrina – EMBRAPA (REUNIÃO..., 2005).

Camarano (1997) citou seu trabalho como o primeiro nacional a abordar a divergência genotípica entre populações de girassol através de técnicas multivariadas. Os experimentos foram instalados em Goiânia e Goianésia, estado de Goiás, e foram observados 11 caracteres de 10 populações distintas de girassol. A análise de agrupamento e a dispersão gráfica por variáveis canônicas formaram grupos homogêneos de acordo com as regiões de origem.

(22)

As técnicas multivariadas podem ser utilizadas no estudo da divergência genética, pois permitem combinar as múltiplas informações contidas na unidade experimental, de modo que seja possível executar uma seleção com base num complexo de variáveis, proporcionando ainda, enriquecimento das informações extraídas dos dados experimentais.

2.3 Análise de Agrupamento

2.3.1 Breve Histórico

Tryon (1932, “apud” LEITE, 2000) desenvolveu um procedimento chamado análise de agrupamento, que a partir dos trabalhos de Pearson (1901) e Spearman (1904) do início do século, foi aperfeiçoado por inúmeros autores os quais desenvolveram estudos visando à construção de um algoritmo denominado V-Análise, ou seja, análise de agrupamento de variáveis.

Sokal e Sneath (1963) contribuíram de forma grandiosa para essa metodologia no livro “Principles of Numerical Taxonomy”, voltado para área biológica. A partir dessa época houve uma revolução nos trabalhos científicos centrados em dois motivos. O primeiro deve-se ao avanço tecnológico: as técnicas, que na época eram consideradas inviáveis pela grande quantidade de cálculos, passaram a ser viáveis. O segundo diz respeito à importância da classificação biológica no meio científico (taxonomia numérica), em que ocorre a junção de várias informações sobre o mesmo indivíduo. No Brasil, nesta década, Cunha (1969) propôs uma configuração taxonômica do grupo de abelhas sociais sem ferrão os “Meliponinae”. Definiu 76 caracteres da morfologia externa que foram determinados sobre 55 espécies para investigar as relações de semelhança fenética existentes. Pisani (1973) investigou as repercussões dos acasalamentos recorrentes recíprocos sobre algumas variáveis associadas à produtividade comercial da ave.

(23)

Na década de 80, podem-se citar alguns autores que contribuíram de forma significante para a evolução da técnica, como Gama (1980), Van Laar (1987) e Johnson e Wichern (1988).

Entre autores nacionais, destacam-se Bussab, Miazaki e Andrade (1990), que detalharam as particularidades das técnicas e os algoritmos de agrupamento com aplicações numéricas simples aos principiantes. Descrevem também os principais aplicativos computacionais para a utilização dessa análise.

2.3.2 Metodologia

Hair Jr. et al. (2005) definiram a análise de agrupamento como uma técnica multivariada que tem por finalidade agrupar indivíduos em dois ou mais grupos com base na similaridade dos indivíduos em relação a um conjunto de caracteres que eles possuem. A técnica classifica indivíduos semelhantes de modo que os grupos reflitam elevada homogeneidade interna (dentro do grupo) e elevada heterogeneidade externa (entre grupos).

Para o desenvolvimento da metodologia, Reis (1997) apresentou cinco etapas:

ƒ seleção de indivíduos a serem agrupados;

ƒ definição das variáveis a partir das quais será obtida a informação ao agrupamento dos indivíduos;

ƒ definição de uma medida de semelhança ou distância;

ƒ escolha de um critério de agregação dos indivíduos denominado de algoritmo de partição;

ƒ interpretação e validação dos resultados.

O ponto de partida consiste em selecionar indivíduos para classificá-los em um pequeno número de grupos mutuamente excludentes.

(24)

mais influencia o resultado da análise de agrupamento é a escolha das variáveis. A seleção das variáveis a serem incluídas na análise de agrupamento deve ter argumento baseado em uma teoria, suposição ou o conhecimento da importância de analisa-lás.

Um aspecto importante refere-se a padronização das variáveis. Everitt e Dunn (1996) citaram que há muita controvérsia em relação à estandardização da variável com média nula e variância unitária, pois aquelas variáveis, que deveriam ser as melhores discriminantes para diferença entre grupos, são modificadas e conseqüentemente reduzem a capacidade de distinguir as espécies de forma natural. Somente o conhecimento profundo do assunto traz a decisão correta.

A sugestão dada por Bussab, Andrade e Miazaky (1990) seria aplicar a análise de agrupamento no conjunto de dados originais e, posteriormente, nos dados estandardizados.

2.3.2.1 Medidas de dissimilaridades

O conceito de similaridade ou dissimilaridade é fundamental na análise de agrupamento. Existem diversas medidas de dissimilaridade para medir a relação entre dois indivíduos. Essas medidas definem critérios para avaliar se dois indivíduos estão próximos ou distantes, e distinguir se pode fazer parte de um mesmo grupo ou não.

Aldendefer e Blashfield (1985) classificaram as medidas de (dis)semelhanças em quatro categorias: coeficientes de similaridades ou dissimilaridades; coeficientes de correlação; coeficientes de associação e medidas de semelhança probabilística. Em geral, nos trabalhos publicados, basicamente três medidas predominam na análise de agrupamento: coeficientes de dissimilaridade (ou similaridade), coeficientes de correlação e coeficientes de associação.

(25)

Coeficiente de dissimilaridade

O estabelecimento de uma medida de dissimilaridade entre dois indivíduos constitui-se o ponto de partida para várias técnicas multivariadas. O primeiro passo na análise de agrupamento é transformar a matriz de dados em uma matriz de dissimilaridade. Para isso existem várias medidas utilizadas como coeficientes de dissimilaridades, quando os caracteres são morfológicos. Cormack (1971) apresentou diversas medidas, entre essas, a mais utilizada é denominada distância euclideana.

A distância euclideana, distância euclideana média e a distância de Mahalanobis são frequentemente utilizadas nos trabalhos científicos de melhoramento genético, e os resultados medem a distância genética dos cultivares. Segundo Cruz e Regazzi (1997), a distância D2 de Mahalanobis tem muita utilidade pelo fato de ter grande analogia com outras técnicas multivariadas.

Messetti (2000) apresentou a distância generalizada de Mahalanobis, cujo cálculo, ao contrário de outras distâncias, envolve a estrutura de variabilidade, logo necessita de repetições para estimar as médias originais e a matriz de covariâncias residuais entre características mensuradas. Esta é recomendada por medir objetivamente a posição multidimensional de cada indivíduo em relação ao centro médio das observações e tem propriedades estatísticas que viabilizam testes de significância.

A vantagem da distância euclideana, segundo Cruz e Carneiro (2003), é que não necessita da existência de informações em nível de repetições, estimando-se apenas a média padronizada. A desvantagem é o fato de ser alterada com as mudanças de escala de medidas, com o número de caracteres estudados, além de desprezar parâmetros que envolvam o grau de correlações entre as variáveis. Para solucionar o problema do número de caracteres envolvidos recomendou a distância euclideana média.

Carvalho et al. (2003) ressaltou que os três coeficientes de dissimilaridade têm sido muito utilizados nas estimativas da divergência genética entre cultivares. A distância euclideana pode ser estimada tomando-se por base dados sem repetições, como geralmente ocorre em Banco Ativo de Germoplasma.

(26)

Coeficiente de correlação

Reis (1997) descreveu duas vantagens ao aplicar o coeficiente de correlação. O coeficiente é caracterizado por ser de fácil interpretação geométrica, além da insensibilidade às diferenças de escalas de variáveis, tornando um resultado adimensional - o cálculo da média de todas as variáveis para cada indivíduo realiza de forma natural de padronização das variáveis.

Rosa Neto (2006) relatou que esse coeficiente expressa a similaridade dos dois indivíduos relativos à relação linear. Quanto maior o coeficiente, maior a proximidade entre indivíduos, e mais linearmente estarão relacionados os indivíduos. Se subtrair o valor (1,0) um do módulo do coeficiente de correlação, essa transformação define uma nova medida de dissimilaridade entre indivíduos.

Coeficiente de associação

Os coeficientes de associação definem o grau de dissimilaridade entre os indivíduos, segundo variáveis dicotômicas, como as geradas por marcadores moleculares dominantes como o RAPD- “Random Amplified Polymorphic DNA” - (Polimorfismo de DNA amplificado ao acaso), e o AFLP- “Amplified Fragment Length Polymorphism”- (Polimorfismo de comprimento de fragmento amplificado). As quatro possíveis observações de comparação entre dois genótipos são classificados na presença (1) e ausência (0) da banda no gel de eletroforese.

Sokal e Sneath (1963) citam vários coeficientes de associação, sendo os mais utilizados, os de Jaccard e Sorensen-Dice ou Nei e Li. Alguns trabalhos realizam as comparações dos coeficientes de associação, como Meyer (2002), que comparou oito coeficientes para avaliar a divergência genética: Jaccard, Sorensen-Dice, Anderbeg, Ochiai, Simple Matching, Rogers e Tanimoto, Ochiai II e Russel e Rao sendo este último não recomendado para estudar a divergência genética em que os caracteres envolvidos são dados de marcadores moleculares.

Nessa mesma linha de pesquisa, Emygdio et al. (2003) trabalharam com cultivares de feijão e avaliaram a eficiência de nove coeficientes de similaridade de

(27)

Jaccard, Sorensen-Dice, Russel e Rao, Ochiai, Coincidência simples, Roger e Tanimoto, Hamann, Kulczynski 2, Yule e Phi, comparando-os, quanto aos dendrogramas, às projeções no espaço bidimensional e aos números de grupos formados. Os coeficientes de Yule, Russel e Rao, foram os mais discordantes em relação aos demais. Outras medidas podem ser vistas em Everitt, Landau e Leese (2001).

2.3.2.2 Critério de agregação ou algoritmos de agrupamento

Os dois métodos de agrupamento mais utilizados no melhoramento de plantas são a técnica hierárquica e técnica não hierárquica.

A técnica hierárquica subdividide-se em agrupamentos divisivos e aglomerativos. Nos hierárquicos aglomerativos, o processo se inicia com a matriz de similaridade, a qual é utilizada para identificar o par de indivíduos mais semelhantes entre si. Os dois indivíduos se agrupam e são considerados um único indivíduo. Em seguida, identifica-se o novo par mais identifica-semelhante e formará outro grupo, e assim novos grupos identifica-serão formados de acordo com suas similaridades até que todos estejam reunidos num único grupo. Os algoritmos mais empregados na hierárquica aglomerativa e apresentados em trabalhos de melhoramento genético são: método do vizinho mais próximo, método do vizinho mais distante, método das médias dos grupos, método dos centróides. Alguns trabalhos aplicaram esta técnica: Totti (1997), Messetti (2000), Melo (2000), Ferreira (2001), Moura (2003) e Rosa Neto (2006)

Os hierárquicos divisivos, de maneira inversa, parte de um único grupo e finaliza com todos indivíduos separadamente.

A técnica não hierárquica ou métodos de partição são métodos

usados para agrupar genótipos dentro de uma classificação simples de K grupos, em que K é especificado “a priori” ou é determinado como parte do método de agrupamento.

Rojas, Barriga e Figueroa (2000) aplicaram a técnica não hierárquica, e ressaltaram que seu uso está relacionado ao grande número de genótipos envolvidos no agrupamento. Dois critérios podem ser adotados neste método. O primeiro baseia-se na minimização da soma de quadrados dentro dos grupos, equivalente à maximização da

(28)

dispersão entre os grupos. O segundo critério consiste em maximizar as distâncias de Mahalanobis entre os grupos.

Souza (2004) estudou 233 variedades de soja quanto a concentração de isoflavonóides. A análise de agrupamento, através do método das K médias, foi mais indicado devido ao grande número de dados observados. A validação dos nove grupos foi estabelecida pela análise de variância por variável.

Para finalizar, uma boa sugestão foi apresentada por Hair Jr. et al. (2005) que sugeriram a combinação de ambas técnicas (hierárquica e não hierárquica). A técnica hierárquica estabelece o número de grupos para serem aplicados “a priori” na técnica não hierárquica. Outra vantagem é visualizar os centróides dos grupos na técnica hierárquica, para que estes valores sejam aplicados como semente inicial exigida na técnica não hierárquica.

A seguir serão abordados dois tópicos (itens 2.3.2.3 e 2.3.2.4) pouco explorados nos trabalhos de melhoramento genético. Em termos de técnicas multivariadas, muito se evoluiu no decorrer dos anos, e há trabalhos tratando de assuntos recentes e inovadores dentro de técnicas usuais, com o propósito de simplificar e auxiliar a interpretação dos fenômenos biológicos.

A divulgação desses tópicos virá a contribuir e enriquecer os resultados finais dos trabalhos científicos de diversas culturas agrícolas utilizadas em melhoramento genético.

2.3.2.3 Definição do número de grupos

Alguns pesquisadores das técnicas de agrupamento recomendam aplicar mais de um método sobre o mesmo conjunto de dados e comparar os grupos formados para apresentar um melhor resultado. Aldenderfer e Blashfield (1984) indicaram reaplicar a metodologia numa amostra menor do mesmo conjunto de dados. Se a solução final não é estável, não se deve generalizar os resultados.

(29)

Everitt, Landau e Leese (2001) apresentaram uma alternativa para obter o número adequado de grupos. A técnica também apresentada por Calinski e Harabasz (1974), sugere fornecer valores para g (número de grupos), o qual corresponde ao máximo valor de C(g), onde C(g) é dado por:

C(g) = g n W tr ou traço g B tr ou traço − − ) ( 1 ) ( , com

B - matriz de dispersão entre grupos (equação 1 – item 3.2.5.2) W - matriz de dispersão dentro dos grupos. (equação 2- item 3.2.5.2)

Na definição quanto ao número ideal de grupos, muitos trabalhos utilizam o tracejo da linha de Fenon, como em Ferreira (2001). A linha intercepta os ramos formados pelo dendrograma, paralela ao eixo horizontal, onde o número de ramos interceptados é o número de grupos originados, e a locação da linha de Fenon é feita em função da necessidade do pesquisador.

Frei (2006) comentou que não existe um procedimento padrão para resolver esta questão, mas para uma solução satisfatória utilizam-se vários procedimentos: dendrogramas, aplicação de vários métodos, divisão do conjunto de dados em duas amostras ou comparação de várias resoluções usando K médias (k=2, k=3...).

Rosa Neto (2006) refez detalhadamente o exemplo do livro do Bussab, Andrade e Miazaky (1990). Como exemplo ilustrativo, a análise de agrupamento foi aplicada aos dados moleculares de 40 estirpes de ribózio isolados de nódulos de feijão e decidiu o número ideal de grupos por meio da análise do comportamento do nível de similaridade.

2.3.2.4 Validação e interpretação dos agrupamentos

Para certificar-se de que os agrupamentos realmente diferem entre si, é necessário validar os agrupamentos. Validar significa certificar-se de que realmente os grupos

(30)

diferem. A proposta mais antiga deve-se a Sokal e Rohlf (1962), denominada coeficiente de

correlação cofenética, sendo a idéia básica realizar uma comparação de distâncias

efetivamente observadas entre os indivíduos, e as distâncias previstas a partir do processo de agrupamento. É a medida de validação mais utilizada nos métodos de agrupamentos hierárquicos.

Barroso e Artes (2003) propuseram quatro alternativas: • a correlação cofenética;

• a aplicação da análise de variância multivariada para verificar se existe diferença estatisticamente significante entre os vetores médios dos grupos;

• dois gráficos multivariados: gráfico silhueta, para verificar se o indivíduo está mais próximo dos indivíduos do seu próprio grupo ou dos indivíduos do grupo vizinho;

• gráfico de perfil, no eixo das abscissas indicam-se as variáveis e no eixo das ordenadas, as escalas de medidas. A média é representada por um ponto no eixo cartesiano e, unindo-se os pontos, obtêm-se os perfis de cada grupo.

Hair Jr. et al. (2005) discutiram a importância da validação dos agrupamentos. Primeiro, por ser uma técnica exploratória, caracterizada como descritiva, sem base teórica e não inferencial. Não se pode generalizar conclusões de uma amostra para população. Logo, como método exploratório, a idéia é gerar hipóteses, mais que testá-las, sendo a validação um passo muito importante dessa técnica para não comprometer análises posteriores.

2.4 Análise de Componentes Principais

2.4.1 Breve histórico

A análise de componentes principais citado em Morrison (1976) foi desenvolvida primeiramente por Karl Pearson (1901). Essa teoria foi reformulada por Hotteling (1933), na avaliação das habilidades dos alunos de resolverem problemas de

(31)

aritmética e a velocidade com que os textos eram lidos. Na psicologia moderna, as variáveis que apresentavam uma maior influência foram chamadas de fatores mentais, mais tarde denominadas de componentes. A análise desses componentes que maximizavam a variância dos dados originais foi denominada por Hotteling de Análise de Componentes Principais.

Thurstone (1931) e Hotelling (1933) estiveram trabalhando na mesma linha de pesquisa. Rao (1966) contribuiu de maneira notável, pois sugeriu um grande volume de idéias concernente a aplicações, interpretações e extensões dessa metodologia. Gower (1966) discutiu algumas relações entre componentes principais e outras técnicas estatísticas. Finalmente, Jeffers (1967) deu um impulso de maneira prática, discutindo a complexidade da aplicação de componentes principais.

2.4.2 Metodologia

A análise dos componentes principais é um método estatístico multivariado que transforma um conjunto de variáveis, inicialmente correlacionadas entre si, num outro conjunto de variáveis não correlacionadas, que resultam de combinações lineares das variáveis originais. Essas combinações lineares são chamadas de componentes principais.

O objetivo desta metodologia não é explicar as correlações entre as variáveis, mas apenas encontrar funções matemáticas entre as variáveis iniciais que expliquem o máximo possível da variação existente nas variedades e que permitam uma redução no espaço paramétrico para simplificar a interpretação de resultados, que são de grande interesse em estudos de melhoramento.

Os componentes podem ser derivados da matriz de covariâncias ou da matriz de correlação. Reis (1997) orienta que, se os componentes forem estimados através da matriz de correlação, e caso as variáveis não estejam correlacionadas, deve-se testar a validade da aplicação dessa análise por meio de um dos três testes: Teste de esfericidade da Bartlett; Estatística de Kaiser-Meyer-Olkin (KMO) ou Matriz antiimagem.

(32)

Uma questão importante dentro da concepção geral dessa metodologia é a diferença nas escalas de medidas dos diversos caracteres agronômicos envolvidos no estudo. Van Laar (1991) demonstrou a importância de padronizar as variáveis antes de gerar os componentes. Indicou a padronização quando as medidas das variáveis estão em escalas diferentes ou quando a análise de agrupamento é aplicada posteriormente à análise de componentes principais. Segundo Tabachnick e Fidell (2001), essa metodologia não requer suposição sobre a forma da distribuição multivariada, mas, se existe a normalidade, a análise é engrandecida.

O primeiro passo da metodologia consiste em detectar o primeiro componente, aquele que explica a maior variabilidade global das variáveis. A solução é algébrica, equivale a extrair os autovalores “eigenvalues”,λi, de uma matriz, os quais

expressam a variância de cada um dos componentes. Os autovetores “eigenvectores” orientam os componentes no espaço dos caracteres, e as coordenadas dos autovetores são compreendidas como coeficientes das variáveis originais para a formação do componente principal (JOHNSON; WICHERN, 1992).

Os componentes são calculados em ordem decrescente de importância. O primeiro componente principal, explica a maior parte da variabilidade entre os dados, e essa variância corresponde ao maior autovalor da matriz de correlação ou matriz de variâncias e covariâncias. O segundo componente explica a maior parte da variabilidade restante (menor que a explicada pelo primeiro componente) e, assim, sucessivamente. A importância de cada componente é dada pela percentagem de variância total que este absorve. Segundo Cruz e Carneiro (2003) os primeiros componentes principais em estudos de divergência genética têm sido utilizados quando eles envolvem 80% da variação total.

Barroso e Artes (2003) apresentaram três objetivos da metodologia: redução da dimensionalidade dos dados, obtenção de combinações interpretáveis das variáveis e descrição da estrutura de correlação das variáveis. O principal objetivo e o mais utilizado desta técnica é a redução da dimensionalidade das “p” variáveis envolvidas no estudo em umas poucas “k” variáveis, sem perda substancial de informação. A interpretação e a visualização dos resultados podem ser facilitadas quando ocorre a passagem de um espaço multidimensional, proporcionado pelas “p” variáveis, para um espaço bi ou tridimensional,

(33)

mantendo um elevado grau de explicação. Outra vantagem da redução refere-se ao fato de os componentes principais não estarem correlacionados, podendo ser interpretados independentemente.

Diversos autores apresentam a análise de componentes principais, destacando-se, Anderson (1958), Morrison (1976), Johnson e Wichern (1988), Van Laar (1991), Reis (1997) e Mingotti (2005).

2.4.2.1 Critérios para definir o número de componentes

Em síntese, a análise de componentes principais busca reduzir o espaço paramétrico, mas uma dificuldade encontrada nesta técnica consiste em determinar o número de componentes principais que deve ser utilizado na redução desse espaço paramétrico. Esse é outro tópico muito abordado na estatística e pouco utilizado na área biológica.

Silva (2005) apresentou quatro critérios para escolha do número de componentes: o critério de Kaiser, o diagrama de autovalores “scree test”, os fatores interpretáveis e o critério de simulação de Lèbart. Elaborou um programa computacional para gerar componentes, de fácil manuseio, e acessível aos pesquisadores da área agronômica.

O critério de Kaiser (1958), também denominado critério da raiz latente, sugere manter na análise os componentes principais correspondentes ao número de autovalores maiores ou iguais à média das variâncias das variáveis no estudo, quando a análise incorpora a matriz de covariâncias. Ou, seguindo a mesma idéia, selecionar somente os componentes principais, correspondentes aos autovalores maiores que um (1,0), quando a análise incorpora a matriz de correlação.

Horn e Engstrom (1979) discutiram problemas envolvendo a aplicação do critério de Kaiser, referentes à magnitude dos resultados. Por exemplo, encontrar um autovalor igual a 1,01 e ser retido na análise. Ou um autovalor igual a 0,99 e ser descartado da análise. Como decidir o número de componentes frente a esses valores?

(34)

O critério proposto por Cattell (1966) é o gráfico “Scree-plot”, em que observa-se o número de componentes que se deve excluir da análise. O gráfico, conforme Everitt e Der (2006), descreve no eixo das abscissas os números das ordens dos componentes (ordenados por magnitude decrescente) e, no eixo das ordenadas, os correspondentes autovalores. Comumente, a diferença entre os primeiros autovalores é grande e diminui entre os últimos. A sugestão é optar pelo número de componentes observados no eixo das abscissas, quando a variação do segmento gráfico passa a ser pequena.

Em relação ao critério de Fatores Interpretáveis, Van Laar (1991) indicou o resumo do complexo multivariado logo nos primeiros componentes, desde que estes absorvam 70% ou mais da variância total. Silva (2005) apresentou o critério de Fatores Interpretáveis e fez uma boa discussão referente aos trabalhos que utilizaram 70, 80 até 90% da variância total.

Resumindo Mingotti (2005) diz que o objetivo da análise de componentes principais consiste em sintetizar as informações das “p” variáveis originais, em um número menor de funções lineares dessas. Reforça que a utilidade prática do método diminui com o aumento do número de componentes utilizados, pois quanto mais componentes, maior será a dificuldade para a discussão biológica dos resultados.

Qualquer que seja o critério adotado para definir o número de componentes principais no estudo, é aconselhável adotar o bom-senso, e verificar se existe algum componente relevante sendo descartado no processo.

A técnica de componentes principais vem sendo utilizada em diversas áreas, em especial para avaliação da divergência genética entre genótipos ou populações de diferentes cultivos com base em caracteres quantitativos, como serão abordados a seguir.

Strapasson (1997) selecionou os descritores botânico-agronômicos mais representativos para caracterizar acessos das espécies Paspalum guenoarum e Paspalum

plicatulum (Capim), do grupo Plicatula, por meio de componentes principais. O método foi

utilizado para selecionar descritores e descrever a variabilidade presente na coleção de acessos do germoplasma estudado.

Agong, Schittenhelm e Friedt (2000) avaliaram a diversidade genética de 26 espécies de tomates, baseado na variação morfológica, agronômica e no tratamento bioquímico. O experimento em blocos casualizados foi conduzido no Centro Federal de

(35)

Pesquisa na Agricultura, na Alemanha. Em seu trabalho, agrupou as espécies, utilizando a técnica de componentes principais, e verificou que foram claramente separadas quanto as características do fruto.

Alves (2005) caracterizou e comparou a estrutura genética de sete populações de cupuaçuzeiro, uma planta nativa da Amazônia. Para selecionar algumas das 53 variáveis observadas, utilizou a técnica da análise de componentes principais, obtendo 64% de redução das variáveis. A partir daí, obteve seis grupos geneticamente diferentes, dos 31 acessos avaliados, considerando como medida de divergência a distância euclideana média e o método de ligação da média.

A aplicação de componentes principais para avaliação da divergência genética é evidenciada em trabalhos com germe de trigo por Gou e Song (1991); alfafa por Annicchiarico (1992); cacau por Dias (1994) e linhagens de milho por Meyer (2002).

2.5 Análise de Variáveis Canônicas

A análise multivariada, com base em variáveis canônicas, foi relatada primeiramente por Rao (1952). É um processo alternativo aos componentes principais nas situações em que dispõem-se de dados experimentais com informações de repetições, de modo que estimam-se médias e matriz de dispersão residual entre dados. De forma geral, a técnica serve para avaliar o grau de diversidade entre os genótipos, quando plotados em gráficos de dispersão, desde que a concentração da variabilidade total entre as primeiras variáveis canônicas esteja acima de 80% (CRUZ; CARNEIRO, 2003).

Camarano (1997) avaliou a similaridade de 10 populações de girassol por meio da divergência genética em eixos canônicos. As estimativas das variâncias atingiram mais de 80% nos quatro experimentos realizado em Goiás, o que justificou a utilização de um único eixo para ilustrar a disposição das cultivares num espaço unidimensional.

Melo (2000) utilizou as variáveis canônicas e afirmou que possuem vantagem em relação aos componentes principais, por considerar a estrutura de covariância residual, e ser invariante com respeito à transformação não singular dos caracteres originais.

(36)

Cruz e Regazzi (1997) identificaram Yn como a variável canônica de

menor importância relativa, dada por: Yn = a1x1 + a2 x2 +... anxn, em que x1, x2,,..., xn são

variáveis originais padronizadas. Identifica-se a variável de menor importância como aquela associada ao maior dos coeficientes a1, a2 ,..., an. A segunda variável de menor importância

é identificada, utilizando o mesmo critério, pelos coeficientes da variável canônica Yn-1 e,

assim, sucessivamente.

Ferreira (2001) ressaltou que análises de variáveis canônicas podem ser utilizadas com o objetivo de identificar e descartar variáveis de menor importância na divergência entre tratamentos. Identificam-se os caracteres de menor importância entre os cultivares em estudo, como sendo aqueles cujos coeficientes de ponderação são de maior magnitude, em valor absoluto, nas últimas variáveis canônicas.

Neves (2003) investigou a divergência genética de cultivares de arroz (moderno e tradicional), utilizando diferentes medidas de dissimilaridades da análise de agrupamento. As análises de variáveis canônicas permitiram a visualização dos diferentes cultivares pela redução das dimensões do conjunto de dados, preservando a maior parte das informações biológicas. Ressaltou ainda que a dispersão por variáveis canônicas pode ser utilizada para caracterizar coleções de germoplasma e, em decisões de melhoramento, para explorar o vigor híbrido ou minimizar a depressão por endogamia.

Miranda et al. (2003) avaliaram nove cultivares tropicais de milho de pipoca por meio de técnicas multivariadas. As análises empregadas foram agrupamento com base na distância de Mahalanobis e dispersão gráfica por variáveis canônicas. As duas primeiras variáveis canônicas foram suficientes para representar 96,5% da variância total. Descartou três caracteres dos oito obtidos, e quanto aos resultados das duas técnicas, considerou concordância parcial, obtendo quatro grupos geneticamente diferentes.

Na literatura existem diversos trabalhos que fazem uso da análise de variáveis canônicas para o estudo da divergência genética, como descritos na seqüência. Cruz (1990) aplicou essa metodologia para selecionar genótipos de milho; Reis et al. (1999) estudaram a divergência genética com trigo; Messetti (2000) avaliou o grau de divergência genética entre populações de girassol; Lal, Sharma e Singh (2001) trabalharam com camomila; Adugna e Labuschagne (2003) com óleo de linhaça; Benin (2003) com aveia.

(37)

2.6 Análise de Variância Multivariada

2.6.1 Breve histórico

O primeiro passo foi dado por Wishart (1928), que trabalhou com a distribuição normal multivariada. Hotelling (1933) verificou que a distribuição T2 é uma extensão da distribuição t de Student para normal multivariada.

Historicamente, Wilks (1932), por meio do método da razão de verossimilhança “likelihood ratio method”, obteve uma generalização da análise de variância aplicada a várias variáveis. A estatística Λ (lâmbda) de Wilks fornece testes de significância para análise multivariada, limitado na época pela dificuldade de cálculo para valores exatos. As distribuições assintóticas foram as alternativas para a análise de variância multivariada, sendo a aproximação às distribuições χ2 e F as mais utilizadas.

Seguindo o curso histórico, Bartlett (1934) aplicou o teste de significância para duas variáveis, e Hotelling (1935) verificou a utilidade dessa metodologia em testes de independência para vários grupos de variáveis.

A análise de variância multivariada segue a mesma restrição da análise univariada quanto à homogeneidade de variâncias. Box (1950) definiu o teste M, que determina se deve ou não rejeitar a hipótese de igualdade de matrizes de covariâncias populacionais, utilizando o método do quociente de verossimilhanças como generalização do teste Bartlett (1937). Rao (1952) faz um breve histórico da análise multivariada, mostrando o ponto inicial dos trabalhos, visavam generalizar a análise de variância univariada em multivariada para qualquer tipo de delineamento experimental.

(38)

2.6.2 Metodologia

A análise de variância multivariada é uma extensão da análise de variância univariada, diferindo em alguns aspectos como o grande número de variáveis envolvidas no experimento e o propósito de avaliar as diferenças entre médias de grupos (MARDIA; KENT; BIBBY, 2003).

No modelo univariado, testa-se a diferença entre as médias de um caráter em diversos grupos, considerando a pressuposição de que as variâncias entre os grupos são homogêneas. No modelo multivariado, testa-se a hipótese de que as populações têm o mesmo vetor de médias, contra a alternativa que pelo menos um vetor difere significativamente dos demais. Johnson e Wichern (1992) colocaram que é equivalente a testar se os centróides dos grupos são distintos, considerando a pressuposição de que as matrizes de covariâncias desses grupos são homogêneas. Esse teste pode ser realizado utilizando-se a Análise de Variância Multivariada, abreviadamente denominada de MANOVA.

2.6.2.1 Verificação dos pressupostos

Para os procedimentos de testes multivariados semelhantes à análise de variância univariada, há alguns pressupostos a serem atendidos: as matrizes de covariâncias devem ser iguais para todos os grupos de tratamentos, e o conjunto de “p” variáveis dependentes deve seguir a distribuição normal multivariada.

Em geral, o teste de Box verifica as igualdades das matrizes de covariâncias e os níveis de significância para a estatística do teste. Segundo Hair Jr. et al. (2005), é um teste sensível a desvios da normalidade e requer a verificação da normalidade univariada de todas as variáveis do processo, anteriormente à aplicação do teste de Box.

Quanto às pressuposições do modelo, Mardia, Kent e Bibby (1979) estudaram o efeito da não normalidade, mostrando que os resultados dos testes não são

(39)

afetados por heterogeneidade das matrizes de variâncias e covariâncias, quando o número n de repetições for grande e igual para os tratamentos.

Quanto à normalidade, os métodos estatísticos pressupõem que cada vetor de variáveis seja proveniente de uma população normal multivariada. A proposta de Reis (1997) é testar a normalidade para cada variável, embora isso não implique que todas as variáveis em conjunto mantenham a normalidade. O autor descreveu como construir o gráfico Q-Q, o qual pode ser utilizado para avaliar a normalidade de determinada distribuição. A hipótese de normalidade é plausível quando o resultado no gráfico se aproxima de uma linha reta. A normalidade univariada constitui-se em condição necessária para a normalidade multivariada, mas não suficiente.

Moreira (2003) testou a normalidade por meio de teste de Shapiro-Wilk e teste de Kolmogorov-Smirnov. Os caracteres foram submetidos à transformação dos dados através log(x). Quanto ao pressuposto da homogeneidade utilizou-se o teste de Bartlett.

Ferreira e Cantelmo (2005) comparou o desempenho do teste multivariado de normalidade de Shapiro Wilk com o desempenho do teste de assimetria e curtose, utilizando simulação Monte Carlo. Avaliou as taxas de erro tipo I e o poder dos testes. O teste de Shapiro Wilk teve fraco desempenho, com altas taxas do erro tipo I, e o poder de teste semelhante ao da assimetria e curtose. O teste de assimetria e curtose apresentou melhor desempenho principalmente quando n>50.

(40)

2.6.3. MANOVA

Para avaliação da significância da hipótese nula referente a comparação dos vetores de médias de grupos, podem ser utilizados os testes de Wilks, Pillai, Hotteling-Lawley e Roy. O teste mais utilizado é o de Wilks, mas vale ressaltar que os quatro testes são competidores.

Geralmente os softwares estatísticos geram os quatro testes para análise de variância multivariada, o mais popular é o teste de Wilks. Harris (1975) justificou que os determinantes são mais fáceis de computar do que os autovalores, sendo indicado o critério de Wilks quando os autovalores são aproximadamente iguais.

Reis (1997) fez a seguinte explanação quanto a dois pontos importantes: robustez e potência do teste. De forma geral, combinando a robustez (não violação dos pressupostos) e a potência de teste (probabilidades “versus” erro tipo I e erro tipo II) é possível encontrar a seguinte ordenação, para situações em que estejam presentes mais do que um autovalor não nulo: Pillai ≥ Wilks Hotelling Roy. ≥ ≥

Hair Jr et al. (2005) afirmaram que o teste de Roy é o teste estatístico mais poderoso se todos os pressupostos são inicialmente atendidos e as medidas dependentes são representativas de uma única dimensão de efeitos. Consideraram os outros testes semelhantes por envolverem todas as raízes características no cálculo, com aproximação da estatística F e χ2.

Demétrio (1985) mostrou de forma simples as semelhanças e as diferenças entre análises de variância univariada e multivariada, utilizando 22 variedades de cana-de- açúcar. Oshiiwa (2001) considerou o mesmo delineamento e desenvolveu um programa computacional para microcomputadores, de fácil acesso e manuseio por pesquisadores da área agronômica, usando a análise de dados experimentais, a fim de ilustrar os dados agronômicos.

Melo (2000) estimou a divergência genética de dez cultivares de milho por meio de 25 caracteres morfoagronômicos e marcadores moleculares. Utilizou o critério de Wilks, num delineamento fatorial para testar a hipótese de igualdade dos efeitos dos cultivares

(41)

de milho, e a interação de cultivares e locais. Concluiu pela diferença significativa dos efeitos, locais e interação, embora a interação se apresentasse significativa somente para alguns caracteres.

Daoyu e Lawes (2000) trabalharam com melhoramento genético da fruta Kiwui. Inicialmente, partindo dos resultados obtidos da análise de variância multivariada, verificou-se a diferença significativa entre os vetores de médias das seis populações da fruta Kiwui envolvidas no estudo. Posteriormente, aplicou a análise discriminante para identificar os caracteres que apresentaram melhor desempenho para diferenciar as populações, visando aumentar a produtividade e melhorar a extração de vitamina C da fruta.

Ferreira (2001) quantificou a divergência fenética entre 20 clones de palma forrageira do Banco de Germoplasma da Empresa Pernambucana de Pesquisa Agropecuária, envolvendo oito caracteres. Por meio da técnica da variância multivariada, e adotando o critério de Wilks, detectou diferença significativa entre os vetores de médias de todos os clones de palma forrageira envolvidos no trabalho. Posteriormente, aplicou outras técnicas multivariadas de interesse.

Ledo (2002) aplicou a análise de variância multivariada para cruzamentos dialélicos, com objetivo de selecionar genótipos superiores de milho. Ressaltou a vantagem desta metodologia comparada com a tradicional, pois há a possibilidade de estimar as matrizes de covariâncias dos efeitos genéticos do modelo, às correlações fenotípicas e genotípicas e, consequentemente, obter informações para orientação de programas de melhoramento.

Nos trabalhos de melhoramento genético, a análise de variância multivariada geralmente antecede as outras técnicas multivariadas, como Sousa (2003) utilizou a metodologia para a verificação preliminar da existência de variabilidade genética, por meio da comparação dos vetores de médias de várias populações de guanazeiro.

As técnicas multivariadas tem contribuído, de forma significativa, para o desenvolvimento científico em diversas áreas. No estudo de divergência genética, observa-se que a maioria dos trabalhos se restringe ao uso da estatística multivariada exploratória. Vale ressaltar a importância da estatística inferencial multivariada para realmente validar os resultados, sendo esta uma das propostas desta tese.

(42)

Quadro 1 – Resumo da revisão de literatura.

Análise Autor Cultura Observações

Agrupamentos Camarano 1997 Girassol Distância Mahalanobis Técnicas hierárquicas Duarte 1998 Feijão Coeficiente de Associação

Técnicas Hierárquicas Messetti 2000 Girassol Distância Mahalanobis

Técnicas hierárquicas Meyer 2000 Milho Coeficiente de Associação

Técnicas hierárquicas Ferreira 2001 Palma

Forrageira

Distância euclideana média Distância Mahalanobis Souza 2004 Soja Técnicas não hierárquicas

K médias Componentes

Principais

Dias 1994 Cacau Agrupamento 25 acessos por Componentes Principais Strapasson 1997 Capim Descarte dos descritores Descreve variabilidade Agong 2000 Tomates Agrupamento por

dispersão gráfica C.P. Alves 2003 Cupuaçuzeiro 64% descartes variáveis

Silva 2005 Milho Quatro critérios para selecionar número de componentes

Variáveis Canônicas

Reis 1999 Trigo Agrupamento 94 acessos por eixos canônicos

Melo 2000 Milho Dispersão gráfica 10 cultivares eixo canônicos Moura 2003 Guanazeiro Agrupamento 93 cultivares

três eixos canônicos

Miranda 2003 Milho pipoca Agrupamento nove cultivares por dois eixos canônicos MANOVA Melo 2000 Milho Critério Wilks

Daoyu 2000 Fruta Kiuwi Critério de Wilks Análise discrimante Ferreira 2001 Palma

forrageira

Critério Wilks Ledo 2002 Milho Critérios Wilks

Cruzamentos dialélicos Sousa 2003 Guanazeiro Critério Wilks

Moura 2003 Jaborandi Critério de Wilks

Moreira 2004 Tomate Pressupostos:Teste Shapiro-Wilk, Kolmogorov e Teste de Bartlett

(43)

3 MATERIAL E MÉTODOS

3.1 Material

Objetivando conservar, multiplicar, caracterizar, avaliar os acessos do Banco de Germoplasma de Girassol, e divulgar as informações disponíveis por meio de catálogos, pesquisadores da EMBRAPA realizaram experimentos no ano agrícola de 2000, na região de Londrina – PR, localizada à latitude de 230 23’S, longitude 510 11’W e altitude de 566 m.

Os experimentos das pesquisas foram dispostos seguindo o seguinte planejamento de semeadura:

a) para linhagens (gerações) foram constituídas três fileiras de 6,0m de comprimento, com plantas espaçadas entre si de 0,30 m, em espaçamento de 0,70m entre as fileiras;

b) para populações e variedades foram constituídas três fileiras, realizando autofecundações e SIB (fecundações cruzadas), respectivamente.

No processo de adubação da área experimental foram aplicados 500 kg/ha de formulação 40-80-80 de NPK, sendo a colheita realizada quando as plantas atingiram a maturação, para obter melhor qualidade de germinação e vigor das sementes.

Referências

Documentos relacionados

autor, as manifestações populares carnavalescas como os cordões, ranchos e blocos eram estratégias e artimanhas utilizadas pelos populares como meio de resistência,

Chama a atenção o fato de que temas importantes para a formação do psicólogo (CFP, 2018) como escuta qualificada (MACÊDO; SOUZA; LIMA, 2018), troca de experiências e

produtos e equipamentos não usuais, porém já fornecidos para o início de suas atividades. Outros equipamentos fornecidos como veiculos e máquinas instaladas tem vida

Atualmente existem em todo o mundo 119 milhões de hectarS destinados a plantações florestais, dos quais 8,2 milhões na América do Sul. No Brasil, em 1997 havia cerca de 4,7 milhões

Desse modo, o Plano de Ação construído procurou focar na atuação da equipe diretiva das UEs – especificamente no gestor escolar e no supervisor educacional

Esta dissertação pretende explicar o processo de implementação da Diretoria de Pessoal (DIPE) na Superintendência Regional de Ensino de Ubá (SRE/Ubá) que

O “tempo necessário” para as atividades complementares foi definido no tópico “Objetivos e Metas”, no qual apresentou duas metas referentes ao eixo da jornada de

Diante do relato do Professor 1, percebe-se que a escola oferece uma sala de recursos com variedade de matérias pedagógicos, como jogos e livros. Contudo, o espaço e o número de