MEM CAP1

(1)

DISCIPLINA MÉTODOS ESTATÍSTICOS MULTIVARIADOS

OBJETIVOS:

-INTRODUZIR MÉTODOS ESTATÍSTICOS MULTIVARIADOS PARA LEIGOS -SERVIR COMO UM GUIA PRÁTICO

- ILUSTRAR AS POSSIBILIDADES DE ANÁLISE ESTATÍSTICA MULTIVARIADA PRÉ-REQUISITOS

- CONHECIMENTO PRÁTICO DE ESTATÍSTICA ELEMENTAR

-TESTES DE SIGNIFICÂNCIA USANDO A DISTRIBUICÃO NORMAL, t, QUI-QUADRADO E F

- ANÁLISE DE VARIÂNCIA E REGRESSÃO LINEAR

- ÁLGEBRA MATRICIAL (RAZOÁVEL COMPETÊNCIA NA ÁREA) - ACESSO A ALGUM PACOTE COMPUTACIONAL

OBS: TODOS OS ALUNOS DEVEM DURANTE A DISCIPLINA IMAGINAR OS SEUS DADOS EM CADA TÉCNICA MULTIVARIADA QUE FOR SENDO EXPLANADA

O MATERIAL DE ANÁLISE MULTIVARIADA

1.1 EXEMPLOS DE DADOS MULTIVARIADOS (VÁRIAS VARIÁVEIS RELACIONADAS, SIMULTANEAMENTE)

UNIVARIADO × MULTIVARIADOS

ENSAIOS OBSERVACIONAIS × EXPERIMENTAIS

EXEMPLO 1.1 PARDAIS SOBREVIVENTES DA TEMPESTADE

DESCRIÇÃO: APÓS UMA FORTE TEMPESTADE EM 1˚ DE FEVEREIRO DE 1898, DIVERSOS PARDAIS MORIBUNDOS FORAM LEVADOS AO LABORATÓRIO BIOLÓGICO DE HERMON BUMPUS NA UNIVERSIDADE DE BROWN EM RHODE ISLAND. APROXIMADAMENTE METADE DOS PÁSSAROS MORREU E BUMPUS VIU ISSO COMO UMA OPORTUNIDADE DE ENCONTRAR SUPORTE PARA A TEORIA DE SELEÇÃO NATURAL DE CHARLES DARWIN. TOMOU 8 MEDIDAS MORFOL Ó GICAS EM CADA PASSARO E TAMBEM OS PESOU. OS

RESULTADOS DE 5 MEDIDAS SÃO MOSTRADOS NA TABELA 1.1, PARA FÊMEAS SOMENTE.

Tabela 1.1 Medidas do corpo de pardocas

PASSAROS X1 (mm) X2 (mm) X3(mm) X4(mm) X5 (mm)

1 156 245 31,6 18,5 20,5

... ... ... ... ... ...

49 164 248 32,3 18,8 20,9

Nota: X1 Comprimento Total ...

Francis Galton, 1877, iniciou estudos do coeficiente de correlação linear como uma medida de relação entre duas variáveis.

(2)

Harold Hotelling 1956, descreveram um método pratico para componentes principais

QUESTÕES À RESPONDER:

1. Como estão as várias variáveis relacionadas?

Por exemplo, um valor grande para uma das variáveis tende a ocorrer com valores grandes para as outras variáveis?

2. Os sobreviventes e não-sobreviventes têm diferenças estatisticamente significantes para seus valores médios das variáveis?

3. Os sobreviventes e não-sobreviventes mostram quantidades similares de variação para as variáveis?

4. Se os sobreviventes e não-sobreviventes diferem em termos das

distribuições das variáveis, então é possível construir alguma função dessas variáveis que separe os dois grupos?

Então seria conveniente se valores grandes da função tendessem a ocorrer com os sobreviventes enquanto que a função seria aparentemente um índice de ajuste darwiniano das pardocas.

EXEMPLO 1.2 CRÁNIOS EGÍPCIOS

Medidas feitas em crânios masculinos da área de Tebas no Egito. Há cinco amostras de 30 crânios cada uma dos períodos: Pré-dinástico primitivo (cerca de 4000 a.c.); Do período pré-dinástico (cerca de 3300 a.c.); Da 12ª e 13ª dinastias (cerca de 1850 a.c.); Do período ptolemaico (cerca de 200 a.c.); Do período romano (cerca de 150 d.c.).

Tabela 1.2 Medidas de crânios egípcios masculinos (mm)

Crânios P.D.P. P.P.D Da 12ª e 13ª D. P.P. P.R. X1 X2 X3 X4 X1 X2 X3 X4 X1 X2 X3 X4 X1 X2 X3 X4 X1 X2 X3 X4 1 131 138 89 49 124 138 101 48 137 141 96 52 137 134 107 54 137 123 91 50 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 30 124 138 101 46 130 128 101 51 138 133 91 46 135 130 100 51 136 133 97 51 Figura 1.1 QUESTÕES À RESPONDER:

1. Como estão as quatro variáveis relacionadas?

2. Existem diferenças estatisticamente diferentes nas médias amostrais das variáveis? E se existem, essas diferenças refletem mudanças graduais ao longo do tempo na forma e tamanhos dos crânios?

3. Existem diferenças significantes nos desvios padrão amostrais para as variáveis, e se existem, essas diferenças refletem mudanças graduais ao longo do tempo na

quantidade de variação?

4. É possível construir uma função das quatro variáveis que, em algum sentido, descreva as mudanças ao longo do tempo?

Obs.: Existem diferenças entre as cinco amostras que podem ser explicadas parcialmente como tendências no tempo.

Obs.: No entanto, as razões para as aparentes mudanças são desconhecidas. Por exemplo, migração de outras raças dentro da região pode ter sido o fator mais importante.

(3)

EXEMPLO 1.3 DISTRIBUIÇÃO DE BORBOLETAS

DESCRIÇÃO: 16 colônias de borboletas Euphydryas editha na Califórnia e Oregon. Tabela 1.3 Variáveis ambientais e freqüências gênicas

Colônias

Altitude Precipitação Temperaturas Freq. de mobilidade gênica Pgi (%)

(pés) Anual (pol.) Máxima Mínima 0,4 0,6 0,8 1 1,16 1,3

SS 500 43 98 17 0 3 22 57 17 1

... ... ... ... ... ... ... ... ... ... ...

GL 10500 50 81 -12 0 3 1 92 4 0

Obs.: As ˝freqüências˝ descrevem a distribuição genética das borboletas Figura 1.2 localização geográfica das colônias

1. São as ˝freqüências˝ Pgi similares para colônias que estão próximas no espaço? 2. O quanto, se algum, as ˝freqüências˝ Pgi estão relacionadas às variáveis ambientais? Obs.: São questões importantes na tentativa de decidir como as ˝freqüências˝ Pgi são

determinadas:

- Se a composição genética das colônias foi largamente determinada pelas migrações passadas e presentes, então as ˝freqüências˝ gênicas tenderão a ser similares para colônias que estão localizadas nas proximidades, apesar delas poderem mostrar um pequeno relacionamento com as variáveis ambientais.

- Por outro lado, se o meio ambiente é mais importante, então isso deve aparecer em relacionamentos entre as ˝freqüências˝ gênicas e as variáveis ambientais (assumindo que tenham sido medidas as variáveis corretas)

Obs.: O pesquisador tem que dominar a informação que as variáveis trazem para sua pesquisa. Definir bem quais são as importantes e sempre mirando no objetivo da pesquisa. Não deve ser o estatístico ou uma expressão⁄modelo estatística que define isso.

- Colônias próximas somente têm freqüências gênicas similares se elas têm ambientes similares.

- Obviamente que colônias que estão próximas no espaço usualmente têm ambientes similares (APARENTEMENTE), de modo que pode ser difícil chegar a uma conclusão sobre essa questão.

EXEMPLO 1.4 CÃES PRÉ-HISTORICOS NA TAILÂNDIA

Tabela 1.4 Médias de medidas de mandíbulas para sete grupos caninos (mm) Grupo X1 X2 X3 X4 X5 X6

Cão moderno 9,7 21,0 19,4 7,7 32,0 36,5 ... ... ... ... ... ... ... Cão pré-histórico (PH) 10,3 22,1 19,1 8,1 32,2 35,0 Obs.: A origem dos cães PH não é conhecida.

Obs.: Na tentativa de esclarecer os ancestrais dos cães PH foram feitas medidas de mandíbula em espécimes de todos os 7 grupos

(4)

1. O que as medidas sugerem sobre os relacionamentos entre os grupos? 2. Como os cães PH parecem se relacionar com os outros grupos? EXEMPLO 1.5 EMPREGO EM PAISES EUROPEUS

Tabela 1.5 Porcentagem de força de trabalho de empregados em nove diferentes grupos de indústria em 30 países da Europa

País Grupo AGR MIN FAB FE CON SER FIN SSP TC Bélgica UE 2,6 0,2 20,8 0,8 6,3 16,9 8,7 36,9 6,8 ... ... ... ... ... ... ... ... ... ... ... Turquia Outro 44,8 0,9 15,3 0,2 5,2 12,4 2,4 14,5 4,4 Objetivos:

- Isolar grupos de países com padrões similares de empregos - Entender os relacionamentos entre os países

- Diferenças entre países que são relacionados a grupos políticos (EU, AELC, LESTE EU) podem ser de particular interesse.

1.2 VISÃO PRÉVIA DOS MÉTODOS MULTIVARIADOS ANÁLISE DE COMPONENTES PRINCIPAIS – ACP (PCA)

O QUE É: São combinações lineares das variáveis originais

OBJETIVO: Reduzir o número de variáveis a um número menor de índices

(Componentes principais) e que expliquem grande parte das variâncias das variáveis originais

EXEMPLO: Grande parte da variação nas medidas do corpo das pardocas (X1 a X5, Tabela 1.1) está relacionada ao ˝tamanho geral dos pássaros˝ e o total

I1=X1+X2+X3+X4+X5, mede esse aspecto dos dados, em uma dimensão.

Obs.: Em estatística, uma combinação de variáveis aleatórias, também é uma variável aleatória (Redução de 5 →1)

I2=X1+X2+X3-X4-X5,

é um contraste entre as três primeiras variáveis medidas e as duas ultimas. Este reflete outra dimensão dos dados.

Obs.: Essa combinação linear nas variáveis X's aqui obtidas de forma arbitrária, pode não maximizar a informação de variância total das X's

Obs.: A ACP fornece uma forma objetiva de encontrar índices, tornando concisa a informação de variação nos dados.

∆ A ACP é um meio de simplificar dados pela redução do número de variáveis. ANÁLISE DE FATORES – AF (FA)

O QUE É: Ao contrário da ACP, na AF cada variável original é expressa como uma combinação linear desses fatores, mais um termo residual que reflete o quanto a variável é independente das outras variáveis.

Estudar a variação das variáveis originais usando um número menor de variáveis índices ou FATORES

(5)

X1=a11F1+a12F2+e1 X2=a21F1+a22F2+e2 X3=a31F1+a32F2+e3 X4=a41F1+a42F2+e4 X5=a51F1+a52F2+e5

em que aij – são constantes; F1 e F2 –são fotores; ei – são erros específicos (parte da variação em Xi que é independente da variação nas outras variáveis).

- Aqui, F1 pode ser o fator ˝Tamanho˝ e a11, a21, a31 a41 e a51 seriam todos positivos, refletindo o fato de que alguns pássaros tendem a ser grandes e outros pequenos em todas as medidas do corpo.

- F2 poderia medir a forma dos pássaros com alguns coeficientes positivos e outros negativos

Obs.: Se o modelo com F1 e F2 ajustar bem aos dados, então ele forneceria uma descrição relativamente direta do relacionamento entre as cinco medidas do corpo que estão sendo consideradas.

F1* F1

ROTAÇÃO FATORIAL (VARIMAX) F2* OBJETIVO: facilitar a interpretação dos Fatores.

F2 ANÁLISE DE FUNÇÃO DISCRIMINANTE – AFD (DFA)

OBJETIVO: Formar diferentes grupos de observações (ou indivíduos, amostras), com base nas variáveis disponíveis.

EXEMPLO: A AFD pode ser usada para ver quão bem pardais sobreviventes e não-sobreviventes podem ser separados usando suas medidas e assim ver quais variáveis discriminam tais populações.

BASE: Combinações lineares convenientes das variáveis originais.

Distâncias ANÁLISE DE AGRUPAMENTO (AG)

O QUE É: é a identificação de objetos similares

O2 O5 O1 O3 O2

Objetos Obs.:Nos exemplos dos pardais, não há muito sentido em fazer AG, pois os grupos já existem a priori (sobreviventes e não-sobreviventes). Idem para o exemplo dos crânios egípcios, pois épocas já são conhecidas.

Obs.: No exemplo 1.3 poderá haver algum interesse em agrupar colônias de borboletas com base nas variáveis ambientais ou ˝freqüências˝ Pgi ou ambas.

Obs.: No exemplo 1.4 o principal interesse está na similaridade entre cães pré-históricos tailandeses e outros animais (a similaridade entre as outras raças e de interesse secundário) Obs.: No exemplo 1.5 os países europeus podem possivelmente ser agrupados em termos de suas similaridades no padrão de empregos.

(6)

ANÁLISE DE CORRELAÇÃO CANÔNICA – ACC (CCA)

OBJETIVO: Descobrir alguma relação entre grupo de variáveis (não objetos)

No Exemplo 1.3 o interesse biológico está na relação entre as variáveis genéticas e ambientais

ANÁLISE DE ESCALONAMENTO MULTIDIMENSIONAL – AEM (MSA)

OBJETIVO: À partir de alguma medida de distâncias entre objetos constrõe-se um mapa mostrando como estes objetos estão relacionados. Ex: Relações entre capivaras (Tot/Unila) No Exemplo 1.4 há formas de medir as distâncias entre cães modernos e jacais dourados, cães modernos e lobos indianos etc. Temos 21 distâncias e delas a AEM pode ser usada para produzir um tipo de mapa de relacionamento entre os grupos.

MAPA UNIDIMENSIONAL →GRUPOS EM UMA LINHA RETA MAPA BIDIMENSIONAL → GRUPOS EM PONTOS EM UM PLANO MAPA TRIDIMENSIONAL → GRUPOS EM UM CUBO

Obs.: Soluções de quarta dimensão ou mais são possíveis, mas de uso limitado, pois não podem ser visualizados de forma simples.

Obs.: A AEM pode ser uma alternativa útil à AG.

- No exemplo 1.4 mostraria imediatamente quais grupos de cães o PH são mais similares - No exemplo 1.5 uma AEM mostraria países do leste europeu podem estar juntos de países do oeste europeu, por suas características de semelhança nas suas políticas de emprego. Obs.: Métodos de ordenação – CP e EM, produzem eixos nos quais um conjunto de objetos de interesse pode ser representado. Existem outros

ANÁLISE DE COORDENADS PRINCIPAIS (AC*P)

DEFINIÇÃO: é um tipo de ACP que inicia com informações sobre o quanto os pares de objetos são diferentes (medidas de dissimilaridades) em vez dos valores das medidas dos objetos (dados originais)

OBJETIVOS: os mesmos da AEM, mas os métodos numéricos são diferentes. ANÁLISE DE CORRESPONDÊNCIA (AC)

CARACTERÍSTICAS DOS DADOS: Dados de abundância (freqüência, ocorrência) de cada uma das variáveis, para cada objeto (indivíduo, amostra).

ÚTIL: em ecologia – diferentes locais (objetos) e diferentes espécies (variáveis) OBJETIVO: tornar clara as relações entre os locais,

em termos de distribuição das espécies e vice-versa

1.3 A DISTRIBUIÇÃO NORMAL MULTIVARIADA

IMPORTÂNCIA: muitos métodos estatísticos, assumem a DNM no

momento de realizar os testes estatísticos (ANÁLISE CONFIRMATÓRIA) EXIGÊNCIA MÍNIMA PARA A MULTINORMALIDADE:

Que cada variável seja individualmente normal (mas isso não garante a multinormalidade!) X~Np(μ,Σ)

TRANSFORMAÇÂO DE DADOS (Potência ótima de Box-Cox) – pode levar uma variável à normalidade! Ácaros, insetos, bactérias, vírus, pássaros, pessoas, borboletas, árvores, plantas, micro- ou macro-nutrientes etc.

(7)

1.4 PROGRAMAS COMPUTACIONAIS

Não se consegue fazer uma boa análise estatística multivariada sem o uso de computadores! O uso de métodos multivariados por pesquisadores é ainda hoje escasso!

RAZOES:

- Desconhecimento dos métodos multivariados; - Receio do uso de álgebra de matrizes;

- Medo de interpretar os resultados;

Precisamos ser mais ˝agressivos˝ no uso desses métodos!

SAS – R – SPSS – CANOCO (ter Braak e Smilauer, 2003) – PC-ORD (Digisys, 2003) XLSTAT-PRO (Xlstat, 2003) add-in para o Excel, GenStat, MINITAB, MVSP 3.1, NCSS 2004, Stata 8.0, Statistica 6.1

1.5 MÉTODOS GRÁFICOS

A grande evolução das facilidades computacionais tem levado a um crescimento na variedade de métodos gráficos disponíveis para dados multivariados, p.ex. BIPLOT